跨预言信息检索查询翻译技术研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:fngdi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
跨语言信息检索(CLIR)是用户采用一种语言的查询检索另一种语言的文档集合的过程。查询翻译是CLIR系统中采用最广泛的方法。查询翻译普遍采用基于词典的方法,而查询中的未登录词(OOV)使CLIR的性能显著降低。因此如何正确翻译查询中的OOV成为查询翻译的关键问题。   互联网上存在数量巨大的双语语料库资源,因此可以利用这些资源构建双语语料库。通过充分利用丰富网络资源,解决了基于语料库查询翻译中存在的语料库规模小、领域不相关、更新不及时等问题。首先分别从互联网抓取双语资源;其次采用各种特征进行语料库对齐,从而构建语料库;最后从所构建的语料库中抽取翻译知识进行查询翻译。从语料库中抽取的高质量翻译知识能显著提高OOV译文的覆盖度。基于搜索引擎的查询翻译方法利用了搜索引擎OOV译文高资源覆盖度的特点,从搜索引擎挖掘译文用于查询翻译。通过跨语言查询扩展提高所获取的摘要资源的质量;通过基于频度变化信息和邻接信息的候选单元抽取方法从所获取的双语摘要资源中抽取候选翻译单元,该方法提高了候选翻译单元的质量;综合利用频度-距离模型、表层模板匹配模型和音译模型从候选翻译单元中选择最佳译文用于查询翻译。从搜索引擎挖掘的译文极大提高了CLIR的性能。   对采用基于词典的查询翻译方法、基于语料库的查询翻译方法以及基于搜索引擎的查询翻译方法的CLIR进行了性能比较,探索各种方法中影响检索性能的因素;并将各种查询翻译方法进行有效综合,实验显示综合方法能进一步提高检索性能。
其他文献
随着Internet突飞猛进地发展,基于互联网的应用越来越深入,而XML无论是作为标记语言还是被作为存储结构的数据库都随着Internet上的各种应用增多而被越来越广泛的应用。为了
无线传感器网络是一种低成本的、无基础设施的、分布式的自组织网络。它综合了传感器技术、网络通信技术、嵌入式计算技术和分布式信息处理技术,是当前国际上备受关注的新兴
视频拼接技术在视频监控、医学影像分析等领域具有广泛的需求和应用,它是一种将一组具有重叠区域的视频图像在不降低分辨率的条件下合成一个较宽视场的视频图像的技术。  本
随着电子商务的发展,认证邮件协议作为一种能够使协议的参与方都满足公平性的邮件协议,越来越受到人们的关注。认证邮件协议是公平交换协议的一种,它是指一个发送方需要将邮
RSA算法是现在应用最广的公钥密码算法,但是一直以来,受限于嵌入式设备的有限资源问题(如CPU运行速度,内存等),使RSA算法很难在嵌入式设备上高速的运行。近些年来,很多算法被
文档作为一种重要的大数据类型,蕴含着丰富的有价值的数据,其具有非结构化、样式不固定、数据混杂、价值稀疏等特征。针对文档大数据的特点,提出了一种基于MapReduce的文档大数
视频风格化处理是图像非真实感渲染技术的分支,它将艺术化效果嫁接到普通视频中,使得原有的视频带有丰富的艺术情感信息。人们观察视频或图像时往往将注意力集中于其中的显著部
本文以集成供应链中采购管理软件的开发为应用背景,探讨了基于工作流的软件模型、本体描述方法、协同方法等系统设计问题,建立了一个高效的采购管理软件框架,并利用Petri网等
公交车作为居民出行的主要公共交通工具,由于实时客流量信息的不足,导致经常出现严重的空乘和拥堵现象。因此,迫切需要一种科学合理的公交站台客流量采集手段,为公交车的实时规划
随着社会信息化程度的提高,人们对于信息实时性的要求也日益提高。如何从海量的信息中查找到所需的最新信息越来越引起人们的关注。而XML作为网络数据表示和交换的标准,很多