经过预处理的中文二元分词技术

来源 :计算机时代 | 被引量 : 0次 | 上传用户:shekitito
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:对信息检索系统中常用的两种分词方法,即词表分词法和二元分词法,进行了分析比较。针对二元分词的分词结果冗余度大的问题,提出了改进方法,即经过预处理的二元分词方法。
  关键词:词表分词;二元分词;预处理;冗余度
其他文献
海量信息在网络上的出现,使搜索网站应运而生,越来越多的搜索工具受到关注。Nutch是一个开源Java实现的搜索引擎,扩展性较好,是人们研究的热点。现今出现的Nutch-0.8.1较好地
面对错综复杂的街道.不用说到郊外旅行了,即使是在城市内。上上下下的高架.还有各式各样的单行道.新驾驶员往往变得手足无措.心中狂问自己--究竟该往哪里开?如果现在有人告诉我怎么走
根据基于内容的概念格图形的近似自相似性,给出了用户自定义基块和划分细度的近似自相似度度量方法,在此基础上又提出确定关键子块的近似自相似度度量方法,最后分别用这两种方法