论汉英平行语料的平行处理

被引量 : 13次 | 上传用户:Jany9538235
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
平行语料库研究是近年来语料库语言学横向发展的新趋势。人们已经清楚认识到大规模的高质量汉英平行语料库在自然语言处理、比较语言学研究和第二语言教学等众多领域中的巨大价值。但与单语语料库相比,汉英平行语料库无论在规模还是质量上都有较大差距。 为了进一步提高汉英平行语料的加工精度以适应建设和利用大规模平行语料的要求,本文以汉英平行语料的平行处理为主要研究对象,旨在利用双语信息,尤其是来自另一语言的信息来解决平行语料中某一语言的歧义问题。 本项研究主要取得了以下几方面成果: 第一,系统研究了平行处理技术。不仅明确了平行处理的含义,它在平行语料加工中的地位及价值,以及平行语料中用于消歧的语言资源层次及类别等等,而且还通过实验详细论证了平行处理技术在未登录词识别、词性标注、词义标注及句法分析等自然语言处理各层面的利用方法及有效性。 第二,平行处理技术是汉—英和英—汉双向的。我们不仅利用英语来解决汉语的歧义问题,包括汉语未登录词识别、汉语兼类词和多义词标注以及汉语“动词+名词”短语类型识别等,而且也利用汉语来解决英语歧义,例如英语的词性消歧和词义消歧等。 第三,在未经词汇对齐的平行语料中,实践了基于个性规则的词性、词义消歧方法。统计模型适于自动处理数据密集的问题,本文对英语人名汉译名的平行识别就主要使用了统计方法,精确率达到99.45%。而对于一些统计处理消歧效果较差、但出现频率又很高的词语,我们手工编写针对性极强的消歧规则。这些规则具有不受上下文长度和模板数量限制、特别适合于双语平行处理、消歧效果好等优点。我们为5个典型兼类词(过去、计划、与、back、so)和5个典型多义词(地方、所有、等、since、state)设计的平行处理算法,在大规模英汉或汉英平行语料中得到了验证,观察语料中的标注精确率均为100%,各类型语料中的总体精确率最高为100%,最低的也达到了96.59%,这比目前仅利用单语进行词性和词义消歧的成绩有了大幅度提高。 第四,精加工了1000句对的汉英平行语料。我们首先统计分析了这1000句对中汉英双语的词频、字词录入错误、普通未登录词、兼类词和多义词以及汉语的分词歧义字段、“动词+名词”序列等信息,然后利用平行处理技术,结合人工校对,消除了其中全部的句对齐、字词录入、分词和词性j际注错误,以此作为今后建设和加工大规模平行语料的可信资源。 综上所述,统计和规则相结合的平行处理技术,可以有效解决平行语料库中汉语或英语在单语处理时的许多困难问题,有利于更好地实现汉英机器翻译知识的自动获取。
其他文献
当代西方出现的文化批评是一种开放的,适应当代多元范式的时代要求的批评方式。它在当代西方独特语境下产生并为着解决当代西方社会问题而获得发展。文化批评与文化研究一样,
人脸检测(face detection)问题最初来源于人脸识别(face recognition),是自动人脸识别系统中的一个关键环节。近几年随着电子商务等应用的发展,使得人脸检测开始作为一个独立的
硝酸酯是一类重要的有机化合物,在现代科学领域内有着非常广泛的用途。随着硝酸酯使用范围的不断扩大,其合成也日益受到人们的重视。根据硝化剂的不同对硝酸酯的合成方法进行
论述制备高流动性、超高韧性聚丙烯共混物的主要影响因素,重点讨论了聚丙烯基体树脂的种类和滑石粉含量对共混物性能的影响。
"一夫二妻"大团圆模式在通俗文学中并不少见,《薛仁贵荣归故里》构建了"一夫二妻"式大团圆结局。作品具有反映时代特征、体现编选者文化心态与揭示观众审美倾向等特点。但是,
医疗行业是一个高风险的行业,世界上医疗界普遍承认“医疗损害无处不在”,医疗损害一旦发生就会随同产生损害填补问题。由于侵权责任制度设计上的局限性,不能完全保障受害者
冯尼格特被认为是“黑色幽默”文学流派的主要代表作家之一。黑色幽默文学主要以存在主义为思想理论基础,凸显现实世界的黑暗和罪恶,其人物以无可奈何的心情把这些现象加以放
随着经济的发展和人民生活水平的提高,电网的峰谷差越来越大,燃煤火力发电机组低负荷运行时间增长,维持稳定燃烧,一般都需投油助燃。为了节约宝贵的油资源,使用无油点火技术
阐述了针灸推拿专业硕士研究生教学改革的核心,探讨了基于循证教育理念进行针灸推拿专业硕士研究生教学改革,认为教学应遵循各方需求证据,可减少主观片面的失误。