Web信息检索排序函数技术研究

来源 :海南大学 | 被引量 : 0次 | 上传用户:sunashelly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web作为信息的发布与获取渠道给人们带来了巨大便利,与此同时,海量Web信息环境中人们获取有用信息的困难日益凸现,即所谓的“信息爆炸”与“信息湮没”现象并存。人们只能求助于Web信息检索工具——搜索引擎来获取web上的有用信息,然而实际效果却难以让人满意。 排序函数是信息检索系统的核心。排序函数以某种准则计算文档表示与用户查询表示的匹配程度,并据此对文档排序,最终返回一个有序的文档列表作为检索的结果。本文研究Web信息检索排序函数技术。 本文研究Web信息检索排序函数技术,研究的主要内容包括以下三方面: (1)基于统计语言模型的信息检索方法及其在中文信息检索中的应用。首先深入分析研究了信息检索中的各种统计语言模型,并做了统计语言模型和传统概率检索模型的对比研究。重点研究了N-Gram模型在中文信息检索中的应用。研究表明,利用一元语言模型,中文信息检索可以取得和目前主流检索算法相当的性能,但是却略过了分词这一环节。最后,分析了统计语言模型的不足,提出了改进的思想,指出Web环境中研究的重点为统计语言模型框架下Web文档结构信息的表达。 (2)Web信息检索结构化排序函数及标引词加权技术。从Web文档内部结构和外部结构两方面深入探讨了Web信息检索结构化排序函数技术,即基于超链分析和基于Web文档内部结构的排序算法。指出了对提高Web检索性能有着重要意义的数个文档结构(标题、粗体、元数据、锚文本等),同时指出有效的Web检索算法是结合文档内容、超链分析及文档结构信息的混合算法。 (3)遗传算法在信息检索中的应用及基于遗传算法的排序函数设计框架。最后,研究了遗传算法在查询优化、Web结构化文档检索中的应用,深入分析了遗传算法在信息检索应用中存在的问题,提出了下一步研究的方向。重点讨论了基于遗传算法的排序函数设计框架,并对该框架进行了扩展。扩展之后该框架可以表达更多信息,如除web文档内容之外,还包括网页创建时间、网页的评价等(PageRank值、Repupation值等)。
其他文献
本文提出了一种基于多ADC实现高速率、高精度的设计方案,采样率20Mhz以上,转换位数16bit。 本系统为高精度、高速率数据采集系统,对精度要求高,所以在绘制电路板的整个过程都
正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)是一种多载波调制技术,它因具有频带利用率高、抗多径衰落性能好等优点而成为通信技术研究的热点之一,并在数字
数字电视是将模拟电视信号转换为数字信号,然后进行各种功能的处理、传输、记录和控制的系统。在未来的几年里,数字电视系统将完全取代模拟电视系统,在现有信道的基础上,将能
随着因特网和多媒体在下一代无线通信中的应用,宽带高速数据通信服务的需要正在不断增长。由于可用无限频谱资源的有限性,高数据速率只能通过高效的信号处理来实现。信息论领域