基于语言模型的文本检索技术及检索结果重排序的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：yuwenhuaji11987

【摘要】

：

信息检索(Information Retrieval, IR)是研究信息的结构、分析方法、组织、存储、搜索和检索等方面的计算机科学。对检索模型的研究在信息检索领域处于核心地位。不同的检索

【作者】

：

胡晓光

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2006年期

【关键词】

：

信息检索检索模型统计语言模型多模型融合

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

信息检索(Information Retrieval, IR)是研究信息的结构、分析方法、组织、存储、搜索和检索等方面的计算机科学。对检索模型的研究在信息检索领域处于核心地位。不同的检索模型将给出不同的相似度计算,从而影响最终的返回结果。因此,对检索模型的研究和改进对于信息检索有着十分重要的意义。2005年863信息检索评测是本文的一个重要课题背景。本文首先介绍了在2005年863评测中构造的信息检索系统使用的各种文本处理技术,如超文本正文提取、分词、全文索引、查询自动生成等等。这些技术是多检索模型融合研究的基础。向量空间模型VSM是得到广泛应用的经典检索模型之一。可是VSM本身排序策略是经验性强的公式,而且没有深入到语言层面。为了利用语言知识进行检索,近年来基于统计语言模型(SLM-based)的信息检索得到了快速发展。本文研究重点之一是研究SLM-based语言模型中Ponte、GLM模型在中文检索测试集上的表现,并与经典的VSM对比。在基于词义语言模型的信息检索研究中,介绍了同义词词典的词义表示方法,在实验中使用TREC语料把基于词义的语言模型并与其他语言模型进行了比较,实验表明,基于词义的语言模型方法要好于传统的TD-IDF方法,如果有更加精准的词义消歧工具,实验结果还会有进一步提高。在检索结果重排序部分,本文提出了将不同检索系统的结果相融合的方法,并采用线性插值的方法来对不同检索模型之间的检索结果进行融合实验。研究和实验显示,多模型融合能够更好地将各种影响信息检索的因素融合为一体,为中文信息检索提供更为强大的工具,为人们提供更好的信息服务。

其他文献

不确定性条件下的知识获取方法的研究

在信息不断膨胀的今天，人们需要从大量数据中获取有效的知识，这使得智能信息处理成为了众多学者所面临的课题。在处理现实问题时，很难得到完全确定的数据，因此对不确定性条件下的

学位

粒计算粗糙集不确定性信息处理知识获取机器学习

基于多钥匙模式的智能像卡联网门禁系统的研究

门禁系统主要用来实现对出/入口的安全控制，它属于身份认证系统的范畴。传统的门禁系统基本上属于单模式结构，使用者对钥匙模式没有任何选择，另外单模式门禁系统受到很多的限制，

学位

多钥匙模式智能像卡联网门禁系统信息发布

无线局域网安全协议研究及在HostAP中的实现

无线局域网由于其在网络构建及用户移动性等方面比有线网络更加方便、灵活和快捷，因此被广泛应用于经济、生活和科研等领域。然而无线局域网具有空间上的开放性，这就使它在安全

学位

无线局域网安全IEEE 802.1x动态密钥管理

中文信息检索索引单元的研究

随着Internet在全世界的迅猛发展，各种信息资源越来越丰富。信息检索作为互联网的核心技术具有极大的商业价值；信息检索还直接影响到提供给用户什么样的信息；同时信息检索也是情

学位

中文信息检索索引策略概率模型2-泊松模型

基于遗传算法的多实体空间优化摆放与场景建模

在把自然语言理解与虚拟场景生成结合起来的“文景转换”研究中,对空间概念的理解是关键。国家自然科学基金项目“基于Ontology的文本中空间关系的三维可视化”就是对篇章中

学位

文景转换优化摆放VRMLCortona SDK最优解保持遗传算法

基于隐马尔可夫模型的对象定位方法研究

在图象处理和计算机视觉研究领域中，对象定位一直是一个饶有趣味并富有挑战性的课题。对象定位技术在诸如工业自动化、智能控制、医疗辅助诊断、人机交互领域、武器精确制导等

学位

对象定位隐马尔可夫模型一维对象脊柱医学图象

分布式多机系统在AMRS中的研究和应用

目前使用的人工抄表方式已日益不能满足管理自动化的需要，故本文提出了若干种实现自动化的方案，其中基于公共开关电话网络的调制解调器通信方式自动抄表是最能体现自动意义的。

学位

远程通信分布式多机系统管理水表VB

进化非选择算法的分析和应用

人工免疫系统是继人工神经网络和进化计算之后又一种新型的智能计算方法，是生命科学和计算机科学的交叉学科研究领域。生物免疫系统是一个自适应、自组织、自学习的分布式并行

学位

人工免疫系统智能计算进化非选择算法

基于语言模型的文本检索技术及检索结果重排序的研究

其他学术论文