论文部分内容阅读
信息检索(Information Retrieval, IR)是研究信息的结构、分析方法、组织、存储、搜索和检索等方面的计算机科学。对检索模型的研究在信息检索领域处于核心地位。不同的检索模型将给出不同的相似度计算,从而影响最终的返回结果。因此,对检索模型的研究和改进对于信息检索有着十分重要的意义。2005年863信息检索评测是本文的一个重要课题背景。本文首先介绍了在2005年863评测中构造的信息检索系统使用的各种文本处理技术,如超文本正文提取、分词、全文索引、查询自动生成等等。这些技术是多检索模型融合研究的基础。向量空间模型VSM是得到广泛应用的经典检索模型之一。可是VSM本身排序策略是经验性强的公式,而且没有深入到语言层面。为了利用语言知识进行检索,近年来基于统计语言模型(SLM-based)的信息检索得到了快速发展。本文研究重点之一是研究SLM-based语言模型中Ponte、GLM模型在中文检索测试集上的表现,并与经典的VSM对比。在基于词义语言模型的信息检索研究中,介绍了同义词词典的词义表示方法,在实验中使用TREC语料把基于词义的语言模型并与其他语言模型进行了比较,实验表明,基于词义的语言模型方法要好于传统的TD-IDF方法,如果有更加精准的词义消歧工具,实验结果还会有进一步提高。在检索结果重排序部分,本文提出了将不同检索系统的结果相融合的方法,并采用线性插值的方法来对不同检索模型之间的检索结果进行融合实验。研究和实验显示,多模型融合能够更好地将各种影响信息检索的因素融合为一体,为中文信息检索提供更为强大的工具,为人们提供更好的信息服务。