论文部分内容阅读
全文检索是现代信息检索技术的一个非常重要的分支,它是处理非结构化数据的强大工具,也是搜索引擎的核心技术之一。本研究对中文全文检索的有关技术进行了较为深入的研究,重点放在全文检索技术的应用上。对如何利用新技术、改善检索系统的结构、提高检索系统的性能和效率、不断适应信息技术发展的需求等方面进行了新的探索。 全文检索是一种I/O密集型的应用,以往的全文检索系统的开发多在关系数据库的基础上进行。本研究针对全文数据库的特点,指出此方式的弊端与不足,并提出了基于文件系统进行构建的解决方案。由于目前全文检索系统的开发平台并不多见,本文介绍了一种全文检索引擎工具包——Lucene,它功能强大,小巧精悍,便于嵌入各种应用。近年在世界各地被广泛使用,诸如IBM等公司都使用其核心代码。作为一个开源软件,为我们掌握搜索引擎的核心技术提供了绝佳机会,根据现代汉语文本的特点对进行二次开发,是一件很有意义的事情。 汉语自动分词及词性标注是中文信息处理中的重要环节。针对现代汉语自动分词及词性标注的难点,本研究在自动分词方面进行了如下探索:1.对几种常用电子词典的结构进行了分析和比较,实现了核心词典+专业词典的双词典策略,提高了系统的灵活性和适应性。2.采用根据分词有向无环图确定歧义字段的策略,一次性找出所有交集型和组合型歧义字段。3.采用基于角色标注的方法,识别未登录词中的中国人名、地名和外国人译名。4.采用规则的方法,对数字词及重叠词进行了分析和处理。5.利用基于隐马模型的汉语自动分词及标注一体化系统,实现了切分和标注的排歧。