庖丁解牛分词器

庖丁系统是个完全基于lucene的中文分词系统，它就是重新建了一个analyzer，叫做PaodingAnalyzer，这个analyer的核心任务就是生成一个可以切词TokenStream。

庖丁详解

net.paoding.analysis.dictionary 字典抽象—提供查询字典

net.paoding.analysis.knife 切割抽象—分词算法

net.paoding.analysis.analyzer 封装适配器到lucene接口

这种切分还是有很明显的缺点.例如下面一段文字:

“发展社区老年活动场所和服务设施”

如果想搜索日本的和服相关资料,输入关键字“和服”的时候，上面的资料也会被搜索出来

搜索引擎是第一步搜索：

在浩瀚的信息中，快速集结最后可能是所想要的结果，按照可能是最好的顺序展现出来。

人的眼睛是第二步搜索：

找寻最符合要求的结果，同时将机器无法轻易识别的少数“无效”结果过滤

“和服”问题，涉及了汉语语义的问题，几乎不可完全解决(可作为“特例”解决，或通过排序方法，将他排到相对靠后等价解决)。

所用版本：

IKAnalyzer2.0.2 & paoding_analysis2.0.4alpha

测试环境：

InterCore 1.8双核，1G内存，XP，Java1.6Se

结果：

对长度为96256中文分词：

IK-Analyzer：203ms 55296 单词 272394词/秒

paoding：94ms 47104单词 501106词/秒

对长度为3008中文分词：

IK-Analyzer:31ms 1728单词 55741词/秒

paoding：15ms 1472单词 98133词/秒

http://code.google.com/p/paoding/