论文部分内容阅读
Web作为信息的发布与获取渠道给人们带来了巨大便利,与此同时,海量Web信息环境中人们获取有用信息的困难日益凸现,即所谓的“信息爆炸”与“信息湮没”现象并存。人们只能求助于Web信息检索工具——搜索引擎来获取web上的有用信息,然而实际效果却难以让人满意。
排序函数是信息检索系统的核心。排序函数以某种准则计算文档表示与用户查询表示的匹配程度,并据此对文档排序,最终返回一个有序的文档列表作为检索的结果。本文研究Web信息检索排序函数技术。
本文研究Web信息检索排序函数技术,研究的主要内容包括以下三方面:
(1)基于统计语言模型的信息检索方法及其在中文信息检索中的应用。首先深入分析研究了信息检索中的各种统计语言模型,并做了统计语言模型和传统概率检索模型的对比研究。重点研究了N-Gram模型在中文信息检索中的应用。研究表明,利用一元语言模型,中文信息检索可以取得和目前主流检索算法相当的性能,但是却略过了分词这一环节。最后,分析了统计语言模型的不足,提出了改进的思想,指出Web环境中研究的重点为统计语言模型框架下Web文档结构信息的表达。
(2)Web信息检索结构化排序函数及标引词加权技术。从Web文档内部结构和外部结构两方面深入探讨了Web信息检索结构化排序函数技术,即基于超链分析和基于Web文档内部结构的排序算法。指出了对提高Web检索性能有着重要意义的数个文档结构(标题、粗体、元数据、锚文本等),同时指出有效的Web检索算法是结合文档内容、超链分析及文档结构信息的混合算法。
(3)遗传算法在信息检索中的应用及基于遗传算法的排序函数设计框架。最后,研究了遗传算法在查询优化、Web结构化文档检索中的应用,深入分析了遗传算法在信息检索应用中存在的问题,提出了下一步研究的方向。重点讨论了基于遗传算法的排序函数设计框架,并对该框架进行了扩展。扩展之后该框架可以表达更多信息,如除web文档内容之外,还包括网页创建时间、网页的评价等(PageRank值、Repupation值等)。