双语辅助翻译搜索引擎若干问题研究

被引量 : 2次 | 上传用户:YOLANDA123456789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国经济与对外交流的不断发展,翻译市场规模迅速扩大,利用计算机软件等翻译工具越来越受到用户的青睐,各类机器翻译的技术和方法层出不穷。机器翻译的方法主要分为两大类,分别是基于规则的方法和基于语料库的方法。基于规则的机器翻译最大的难题就是语言歧义的消解;基于语料库的方法是采取翻译记忆的模式,用户利用已有的原文和译文,建立起一个或多个语料库,在翻译过程中,系统自动搜索库中相同或相似的翻译资源,并给出参考译文。本文提出的双语辅助翻译搜索引擎是一种新的辅助翻译的模式,它不同于以往的机器翻译,不依赖于计算机的自动翻译,而是由系统给出相关译文,在人的参与下,完成整个翻译过程,与机器自动翻译相比,质量更好,与人工翻译相比,效率更高。对于翻译用户来说,要提供给他们更准确、更匹配的相关译文,系统需要有大规模的语料储备,因此,本系统的核心是语料库的构建,本文主要采用了Web数据挖掘的方法,利用搜索引擎的相关技术,实现了大规模语料库的自动构建和持续积累。在整个论文的研究过程中,主要做了以下工作:(1)分析了信息技术在翻译领域的相关应用,了解了当前翻译技术的发展现状,在基于翻译记忆模式下的计算机辅助翻译的基础上,提出了以Web数据挖掘的方式构建语料库,并通过匹配输入关键字,向用户提供相关参考译文的辅助翻译方法。(2)学习和研究搜索引擎技术,采用Web数据挖掘的一般流程,在互联网海量信息库中,收集具有中英双语信息的单页文本和双页对照文本,通过识别、净化和分析网页DOM结构,提取网页中大量存在的双语平行翻译语料,形成大规模的语料库。(3)在形成语料库的基础上,通过Lucene索引工具,对语料建立索引并实现检索,然后为用户提供一个接口,返回输入信息的相关译文列表,由用户根据列表给出正确翻译。(4)最后,在系统的集成上,将其分成采集模块、提取语料模块、索引模块和用户接口模块,给出了分布式解决方案。
其他文献
<正>抓好领导人员廉洁从业,是国有企业反腐倡廉建设的重要内容,也是反腐倡廉工作服务企业生产经营管理的重要切入点。对于维护国家和出资人利益、保障职工合法权益、促进企业
目的:探讨雌激素受体β(ERβ)基因多态性与中国汉族绝经后女性高脂血症之间的相关性。方法:检测59例高脂血症绝经后妇女(高脂血组)及59例无高脂血症的同龄女性(对照组)的ERβrs944050
苗族是黔西南州的自治民族之一。苗族人民在长期的社会生产和生活中,在民居、服饰、节 日、音乐舞蹈、婚俗、丧葬习俗、禁忌等方面具有浓郁的民族特色。
伴随互联网的普及和数据处理技术的进步,网络终端经济个体对信息传递的便捷化、数据化和智能化要求不断提高,信息消费量日益增多。智能手机等移动设备作为信息技术的产物,其
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
笔者多年来以小柴胡汤加减治疗多种疾病,疗效满意,现举例报道如下。1经行发痉张某,女,38岁,工人,2005年9月28日就诊。自述:自2001年5月以来,每次月经来潮,即颈项强痛,频频发作,甚则角弓
为全面促进小学语文课堂的发展,依据小学语文的教学内容和学科特点,通过阐述有效教学的内涵并探究当前国内外的有效教学方法,针对我国小学语文课堂教学特点提出提高课堂教学
生活在现代社会中的女性,在自我同一性的解构、归属感的丧失、意义感的消解当中,深陷于自我认同焦虑的困境。马克思主义人学理论为缺场中的女性建构了一种新型的自我认同观,
防灾应急避难场所通用标识是防灾应急避难场所设计的重要组成部分,在重大灾害后的灾民疏散和安置、防止和减少伤亡等方面发挥着重要作用。从避难场所通用标识的基本特征入手,
<正>引言近年来,随着中国经济的迅速增长,我国文化产业尤其是湖南文化产业的发展世人有目共睹。中国作为四大文明古国中唯一延续至今的国家,有太多的文化瑰宝等待人们去探索