中文分词及其在基于Lucene的全文检索中的应用

来源 :中山大学 | 被引量 : 0次 | 上传用户:wlg1991
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的发展及普及,电子文档正以惊人的速度增长。如何从这些海量信息中快速、准确地提取有价值的信息已经成为人们关注的焦点,这给信息检索技术带来了机遇和挑战,同时也促进了全文检索技术的发展。Lucene便是随着这一过程而产生发展的。Lucene是一个开放源码的全文检索引擎架构,可以很方便地对其进行二次开发,来构建全文检索系统。但在具体实现上,它仍有很多待改进的地方,尤其是在对中文信息的处理上。因为这涉及到中文分词,而中文分词在中文信息检索中占有很重要的作用,它决定了检索的精度。 在对Lucene进行深入研究后,本文构造出一种适应中英文信息处理的Lucene语言分析器,该分析器的核心模块——分词器所使用的分词算法是一种基于词典的中文分词算法,该算法具体实现上采用了基于词前缀哈希技术来进行逐字匹配,采用基于规则统计技术来进行新词识别,通过对分词中衍生词进行回溯分析来处理分词中歧义,从而达到了高效而准确的分词目的。此外,本文还为该语言分析器构造了一些过滤器,用来对初步分词结果进行过滤、优化。 本文还设计了文本内容提取器来对Lucene的数据源进行预处理,同时对Lucene的其他一些不足之处,比如检索结果的过滤、排序等进行了改进。 最后,本文设计了一个基于改进Lucene的Web全文检索系统,并介绍了其核心模块的详细设计过程。
其他文献
水资源匮乏是21世纪人类所面临的最为严重的资源问题。随着人口的不断增长和工业化进程的加快,水资源需求量在急剧增加。建立水资源管理地理信息系统,是实现水资源可持续利用和
本文利用软件模拟对视频图像的采集、处理过程。其中预处理过程包含典型的图像处理算法,主要有三大类:去噪,颜色插补和白平衡。文中集中讨论其中的颜色插补和去噪过程。去噪
随着万维网的普及和社会信息化程度的提高,人们所掌握的知识呈现爆炸性增长的趋势,各个应用领域所积累的信息资源在飞速增长。这些信息资源包括音频、视频、网页、文本等多种
作为最主要的开放源码软件之一,Linux因具有内核源码公开、性能稳定、兼容UNIX、支持多种处理器、网络功能强、安全性高、内核可以剪裁等一系列优点,正迅速进入实时控制领域
进入21世纪后,科学技术取得了突飞猛进的反展,高科技产品、技术正以前所未有的速度进入人们的生活中,给人们的生活带来了巨大的改变,尤其是以通信技术、互联网技术、软件技术
随着电子信息时代的到来,计算机技术和网络技术得到了迅猛发展,国内外大部分公司都逐渐引入办公自动化系统,但是当前企业和公司的网络管理水平相对比较低,管理方法比较混乱,
数据挖掘是致力于数据分析和理解、揭示数据内部蕴藏知识的技术,它成为未来信息技术应用的重要目标之一。经过十几年的努力,数据挖掘领域产生了许多新概念和方法。特别是最近几
随着我国经济的不断发展,焊接已经成为制造业中非常重要的工艺技术。在我们生活的各个领域所需的产品中,几乎都要用到焊接技术。特别是手工电弧焊因其具有灵活、经济、设备简单
网络技术的快速发展和网络应用的普及给人类生产和生活带来了革命性的变化,这也使得人类面临着一种新的威胁—网络安全。入侵检测技术作为一种必要的安全手段,在网络安全领域
随着多媒体技术的发展和Internet的普及,人们获得各种多媒体信息越来越容易,其中图像是数量最多的一种,如何有效地、快速地从大规模图像数据库中检索出所需要的图像已成为人