庖丁解牛分词器

庖丁系统是个完全基于lucene的中文分词系统,它就是重新建了一个analyzer,叫做PaodingAnalyzer,这个analyer的核心任务就是生成一个可以切词TokenStream。

庖丁详解

庖丁系统的核心内容

net.paoding.analysis.dictionary 字典抽象—提供查询字典
net.paoding.analysis.knife 切割抽象—分词算法
net.paoding.analysis.analyzer 封装适配器到lucene接口

庖丁分词系统的缺点

这种切分还是有很明显的缺点.例如下面一段文字:
“发展社区老年活动场所和服务设施”
如果想搜索日本的和服相关资料,输入关键字“和服”的时候,上面的资料也会被搜索出来
搜索引擎是第一步搜索:
在浩瀚的信息中,快速集结最后可能是所想要的结果, 按照可能是最好的顺序展现出来。
人的眼睛是第二步搜索:
找寻最符合要求的结果,同时将机器无法轻易识别的少数“无效”结果过滤
“和服”问题,涉及了汉语语义的问题,几乎不可完全解决(可作为“特例”解决,或通过排序方法,将他排到相对靠后等价解决)。

庖丁与IK性能比较

所用版本:
IKAnalyzer2.0.2 & paoding_analysis2.0.4alpha
测试环境:
InterCore 1.8双核,1G内存,XP,Java1.6Se
结果:
对长度为96256中文分词:
IK-Analyzer:203ms 55296 单词 272394词/秒
paoding:94ms 47104单词 501106词/秒
对长度为3008中文分词:
IK-Analyzer:31ms 1728单词 55741词/秒
paoding:15ms 1472单词 98133词/秒
http://code.google.com/p/paoding/
  1. da shang
    donate-alipay
               donate-weixin weixinpay

发表评论↓↓