论文部分内容阅读
随着网络技术的发展,网络中存在的信息量也越来越大,如何高效、快速、准确地从庞大的信息海中获取到满足要求的信息已经成为人们重点关注的问题。传统的信息检索技术仅仅是从关键字的角度出发进行信息的机械匹配,现在越来越多的人已经开始将自然语言与搜索引擎技术结合研究,探索智能搜索引擎的开发。本文分析研究了信息检索技术中比较主流的全文搜索技术,全文搜索技术对非结构化文本的处理就是将文档中的所有内容作为研究对象,经过文本处理得到可以被索引的纯文本信息,然后对文本信息分词建立索引形成索引库,当有用户进行信息检索时,对用户输入的关键字进行一定的处理再与索引库中的索引关键字进行匹配,从索引库中提取出满足用户要求的信息。在全文搜索技术的基础上,加入自然语言理解的中文分词处理层次,具体的研究内容和成果如下:①分析研究了全文搜索、自然语言理解的关键原理及处理机制,在理论的基础上,结合SS (Struts+Spring)框架开发出一个基于自然语言理解全切分中文分词的全文搜索系统原型,此系统原型是针对目前各种典型非结构化文档的全部内容进行文本预处理、中文分词、建立索引库、在索引库中进行信息检索;②已开发出的系统原型对于文档信息量较小的文档库进行建立索引库检索信息的效率、准确率都比较高。但是可以预想,当文档库所包含的信息量非常大,对文档全部内容进行预处理,再分词建立索引库,时空耗费必然也相当庞大。针对这一缺陷,本文提出了一种对文档内容建立局部索引的思想,并且在已开发完成的系统原型基础上进一步研究,比较两种不同的文档处理机制,经过试验,得出对文档内容建立局部索引在信息检索领域是相当有研究价值的。