论文部分内容阅读
随着互联网的飞速发展,网络信息量和网络信息用户的数量也在急剧膨胀,网络已经成为人们重要的信息来源。然而,语言的多样性导致使用一种语言的用户在获取其它语言的信息时会碰到困难,跨语言信息检索就是为解决这一困难而提出来的一种信息检索方法,其中的关键技术主要有:查询翻译和消歧、查询扩展、检索模型和文档的重排序。本文围绕跨语言信息检索中的几项关键技术展开研究,主要工作包含以下几个部分:
1.提出一种多语言文档混合重排序的方法。文档排序是跨语言信息检索中重要的一环,目标是把与查询相关度大的文档放到返回结果的前列以方便用户阅读。本文提出了一种融合多种特征的文档排序方法,并把它扩展到了跨语言领域,同时对多种语言的文档进行综合排序,试图把多语种的相关文档排列到返回列表的前端。实验表明,该排序方法对单语和多语的文档排序结果都能提高搜索引擎的前端结果的查准率。
2.提出一种针对人名检索的两步排序方法来对文档进行重排。人名检索在网络信息检索中占有大比重,且与一般的检索相比有自己的一些特点,所以有必要对其进行有区别的处理。本文对跨语言信息检索中的人名检索进行了单独研究,针对人名检索的特点提出了一种两步排序方法来对检索结果进行重排序。两步排序法的第一步需要对原始文档集进行聚类,聚类的方法采用层次聚类,聚类的特征为文档中固定窗口内人名附近的名词、文档的热点词、文档中的其它人名与地名,然后再对聚好的类进行排序;两步排序法的第二步是在类的内部对文档进行排序,按照文档的初始顺序进行排序。两步排序法还考虑了同一个人名在不同语言中信息的不均匀分布的现象。实验结果表明,该方法能够提高人名跨语言检索前端结果的查准率。
总之,本文在总结现有检索结果文档重排序方法的基础上,提出了一种新的融合多种特征的检索结果文档重排序算法,并把它扩展到了跨语言检索结果文档重排序中;同时,针对跨语言的人名检索,提出了一种针对人名的检索结果文档排序方法。实验结果验证了本文提出的方法和模型的有效性。