论文部分内容阅读
跨语言信息检索(CLIR)是用户采用一种语言的查询检索另一种语言的文档集合的过程。查询翻译是CLIR系统中采用最广泛的方法。查询翻译普遍采用基于词典的方法,而查询中的未登录词(OOV)使CLIR的性能显著降低。因此如何正确翻译查询中的OOV成为查询翻译的关键问题。
互联网上存在数量巨大的双语语料库资源,因此可以利用这些资源构建双语语料库。通过充分利用丰富网络资源,解决了基于语料库查询翻译中存在的语料库规模小、领域不相关、更新不及时等问题。首先分别从互联网抓取双语资源;其次采用各种特征进行语料库对齐,从而构建语料库;最后从所构建的语料库中抽取翻译知识进行查询翻译。从语料库中抽取的高质量翻译知识能显著提高OOV译文的覆盖度。基于搜索引擎的查询翻译方法利用了搜索引擎OOV译文高资源覆盖度的特点,从搜索引擎挖掘译文用于查询翻译。通过跨语言查询扩展提高所获取的摘要资源的质量;通过基于频度变化信息和邻接信息的候选单元抽取方法从所获取的双语摘要资源中抽取候选翻译单元,该方法提高了候选翻译单元的质量;综合利用频度-距离模型、表层模板匹配模型和音译模型从候选翻译单元中选择最佳译文用于查询翻译。从搜索引擎挖掘的译文极大提高了CLIR的性能。
对采用基于词典的查询翻译方法、基于语料库的查询翻译方法以及基于搜索引擎的查询翻译方法的CLIR进行了性能比较,探索各种方法中影响检索性能的因素;并将各种查询翻译方法进行有效综合,实验显示综合方法能进一步提高检索性能。