【摘 要】
:
随着英特网的发展,人们越来越多的面临怎样有效地查找相关外语文件的问题。在互联网发展初期,网络内容以英文为主,上网用户也多来自美、英等发达国家,但此后,来自其他国家的
论文部分内容阅读
随着英特网的发展,人们越来越多的面临怎样有效地查找相关外语文件的问题。在互联网发展初期,网络内容以英文为主,上网用户也多来自美、英等发达国家,但此后,来自其他国家的网站和用户数逐渐增加,给传统的以英语为唯一语言的信息检索技术带来新的问题。为此研究直接用用户的母语进行信息检索成为必要,进而研究双语言或多语言的跨(交叉)语言信息检索也成为一个热门的话题。跨语言信息检索研究的是基于一种自然语言构造的查询搜索任意语言文档的方法,因为单一语言信息检索的研究已经比较成熟,而且已经实用化,因此目前跨语言信息检索技术的基本框架都是从单语言信息检索继承发展而来。但由于不同的语言背后隐藏着差别很大的文化背景和人文习惯,机器翻译的效果至今不能满足人们的要求,所以仅仅依靠单语言检索的方法不能满足解决跨语言信息检索中的语义匹配等深层次问题。本文首先介绍了跨语言信息检索的研究内容和相关技术及其国际评测标准,接着分析了潜在语义分析的原理和建模方法以及相关的应用。然后根据潜在语义分析的语言无关性等特点,用其分析双语文本,建立词语翻译模型,并引入双向翻译思想,提高翻译准确率。随后针对传统跨语言信息检索中查询扩展方法的缺陷,结合k-means聚类和潜在语义分析模型对文本和词语表示的优势,提出一种新的扩展方法,减轻翻译出错或翻译歧义对查询结果的影响,最后更新了传统的查询词权重计算公式,提高了检索的平均准确率。
其他文献
随着互联网的快速发展,社会媒体越来越被广泛使用,成为人们生活方式的一部分。通过社会媒体积累的数据也因而正经历着爆发性的增长。通过挖掘社会媒体文本获得信息,相比于社
近年来,随着计算机处理能力的提高和对彩色图像应用的增加,彩色图像分割受到越来越多研究者的关注。彩色图像分割方法可以被看作是灰度图像分割方法在彩色图像上的延伸,但很
随着互联网技术的飞速发展,网络安全变得日益重要。在计算机网络犯罪手段与网络安全防御技术彼此较量不断升级的形势下,单靠网络安全技术打击计算机犯罪不可能非常有效,因此
本文以电信服务开通系统(Service Process System,SPS)的系统架构及其周边接口的分析设计作为SOA(Service-Oriented Architecture)思想在具体系统中的应用研究的一个重要切入
基于图像的公路路面病害自动识别与分类,一直是图像处理和模式识别领域的一项挑战性工作,其对公路养护工程具有很大的指导作用。本文的背景科研项目为南京理工大学江苏省自然基
惯性导航系统作为一种现代化导航系统已经广泛地应用到各类飞行器中,在现代军事航空领域发挥着举足轻重的作用。惯性测试评价平台主要是对惯性器件的特征参数进行测试和评价
人脸识别技术是计算机模式识别领域非常活跃的研究课题,而特征抽取是人脸识别中最基本的问题之一,因此能否抽取人脸图像有效的鉴别特征也成为人脸识别技术的关键问题。典型相
随着网络带宽的增加和高速局域网的普及,已有网络取证系统由于数据捕获和分析能力的不足造成大量信息丢失,削弱了证据的说服力和法律效力。深入研究网络取证相关技术,设计并
随着计算机的普及和数据库系统的巨大成功,各种数据库系统以前所未有的速度开发出来并在各行业得到广泛应用,使得事务处理变得更加准确、高效,积累的数据更是以指数级的速度
说话人识别属于生物认证技术的一种,是一种根据语音波形中反映说话人生理和行为特征的语音参数来识别说话人身份的技术。在生物认证技术领域中,说话人识别技术以其独特的方便