跨语言信息检索中关键技术的研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:hrbwqwq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,网络信息量和网络信息用户的数量也在急剧膨胀,网络已经成为人们重要的信息来源。然而,语言的多样性导致使用一种语言的用户在获取其它语言的信息时会碰到困难,跨语言信息检索就是为解决这一困难而提出来的一种信息检索方法,其中的关键技术主要有:查询翻译和消歧、查询扩展、检索模型和文档的重排序。本文围绕跨语言信息检索中的几项关键技术展开研究,主要工作包含以下几个部分:   1.提出一种多语言文档混合重排序的方法。文档排序是跨语言信息检索中重要的一环,目标是把与查询相关度大的文档放到返回结果的前列以方便用户阅读。本文提出了一种融合多种特征的文档排序方法,并把它扩展到了跨语言领域,同时对多种语言的文档进行综合排序,试图把多语种的相关文档排列到返回列表的前端。实验表明,该排序方法对单语和多语的文档排序结果都能提高搜索引擎的前端结果的查准率。   2.提出一种针对人名检索的两步排序方法来对文档进行重排。人名检索在网络信息检索中占有大比重,且与一般的检索相比有自己的一些特点,所以有必要对其进行有区别的处理。本文对跨语言信息检索中的人名检索进行了单独研究,针对人名检索的特点提出了一种两步排序方法来对检索结果进行重排序。两步排序法的第一步需要对原始文档集进行聚类,聚类的方法采用层次聚类,聚类的特征为文档中固定窗口内人名附近的名词、文档的热点词、文档中的其它人名与地名,然后再对聚好的类进行排序;两步排序法的第二步是在类的内部对文档进行排序,按照文档的初始顺序进行排序。两步排序法还考虑了同一个人名在不同语言中信息的不均匀分布的现象。实验结果表明,该方法能够提高人名跨语言检索前端结果的查准率。   总之,本文在总结现有检索结果文档重排序方法的基础上,提出了一种新的融合多种特征的检索结果文档重排序算法,并把它扩展到了跨语言检索结果文档重排序中;同时,针对跨语言的人名检索,提出了一种针对人名的检索结果文档排序方法。实验结果验证了本文提出的方法和模型的有效性。
其他文献
日常生活、工作、交流、处理事物和决策中,人们的情感能力同正常的理性思维和逻辑思维一样重要。音乐作品的主要内容,是作曲家经由信息转换或能量转化后的主观感受,情感对创作者
科学技术是一把“双刃剑”,它的发展给人们的生活带来便利的同时,也为不法行为的产生提供了土壤。信息时代的电子图像是否值得相信,这是我们必须警惕的问题。以数字形式存储
随着工程建设市场的迅速发展,各种类型、各种资质等级的工程监理企业越来越多,竞争也越来越激烈。特别是工程建设周期长、规模大,涉及管理的环节也比较多(各级管理部门以及不同
流水作业调度是生产、调度领域的一个热点和难点问题,许多实际生产问题可简化为典型的调度模型。总完工时间是其一个重要的衡量指标,最小化总完工时间流水作业调度问题是一类典
人脸识别技术是模式识别和机器学习领域中的重要研究课题,一直为国际机器学习界所广泛关注。近年来,随着自动人脸识别系统在商业和安全等领域的广泛应用,人脸识别技术逐渐为
P2P流媒体视频业务是当前互联网中最为广泛的应用之一,在国内外有着数量庞大的用户群,其产生的流量已成为整个互联网流量中最主要的部分之一。由于P2P流媒体网络建立在不可靠
工业自动化领域的系统集成是一个面向多厂商、多协议和各种实际应用的体系结构,需要解决各类设备、子系统间的接口、协议等与组织管理相关的一些问题。需要各子系统和用户信
点云模型在逆向工程中的应用正受到越来越多的关注,随着激光扫描设备的更新换代,点云数据的采集工作也变得更简易可行,点云数据模型的质量也有所提升,但由于众多不可避免因素
随着社会经济的不断发展,企业级的应用越来越复杂,企业内部业务流程的管理显得尤为重要,为此出现了大量的工作流管理系统,然而面对需求变更的飞速,现有的面向静态的这些工作
WebGIS(万维网地理信息系统)是利用Web技术来扩展和完善地理信息系统的一项新技术,是在网络环境下的一种兼容、存储、处理、分析和显示地理信息的计算机信息系统。基于Java Serv