【摘 要】
:
近年来,随着大数据技术广泛的应用,语料库技术在各类语言中快速发展,并在很多领域内取得了巨大的进步。在自然语言处理领域中,中英双语的机器翻译发展迅速,但是英汉双语语料库的发展难点依旧存在,主要是语料收集、语料分词和语料对齐,依旧需要深入研究,每一个过程都可能影响语料库的质量,只有深入研究语料库构建的每个部分,才能更好的构造可利用型的语料库。本文主要是对语料的收集、语料的分词、语料的对齐及语料库的应用
论文部分内容阅读
近年来,随着大数据技术广泛的应用,语料库技术在各类语言中快速发展,并在很多领域内取得了巨大的进步。在自然语言处理领域中,中英双语的机器翻译发展迅速,但是英汉双语语料库的发展难点依旧存在,主要是语料收集、语料分词和语料对齐,依旧需要深入研究,每一个过程都可能影响语料库的质量,只有深入研究语料库构建的每个部分,才能更好的构造可利用型的语料库。本文主要是对语料的收集、语料的分词、语料的对齐及语料库的应用等方面做了研究和设计,所以本论文的选题具有很重要的研究和应用的意义。本文的主要工作如下:(1)中英双语语料的收集和预处理。为了提高收集语料的效率,本文设计了一种网络爬虫算法。主要是根据HTML的特点设计爬虫算法,并收集双语语料,最后对双语语料进行预处理,包括字体、段落排版等格式的统一、各种网络标记的清除、英文编码的归一化等。根据实际测试,该爬虫算法极大地提高了在收集语料时的速度。(2)将中英语料库分词。针对传统中文分词在歧义词和未登录词上的难点,本文设计了一种新词识别的算法,来提高传统算法对歧义词和未登录词的识别率。主要是先通过命名实体识别选出部分新词并过滤语料库,过滤完后的语料库利用N-Gram词频统计删除低频词,然后通过计算信息熵和左右邻接熵来进一步筛选新词。将识别出来的新词构造了新词词典,并与jieba分词算法相结合来对语料库分词。本文根据选定的MSR和PKU数据集进行测试,实验结果表明,本文设计的基于词典的改进jieba分词算法在分词准确性和新词识别率上,有较好的提升。(3)将中英语料库对齐,实现中英平行语料库的构建。根据语料库段落特点,本文设计了一种基于段落标记的段落对齐算法,并用余弦相似度来进行检验,将相似度低的进行删减。并在段落对齐后,本文设计了一种增加特征信息的词典的句子对齐算法,首先通过句子的特殊符号来对句子进行划分,然后统计句子在锚点词典和普通词典中的单词匹配个数,进行加权求值,并设置阈值,作为对齐判别条件。根据需要筛选的2组语料数据进行测试,实验结果表明,本文设计的句子对齐算法提高词典句子对齐算法的准确性。(4)建立机器翻译的系统。通过前面构建的中英双语语料库,本文设计了一种基于LSTM神经网络的机器翻译系统,首先利用构造的中英双语平行语料库训练翻译模型,训练完模型后利用Flask将翻译模型打包成API,并构造翻译界面,通过调用API实现机器翻译,通过实际测试,该翻译系统实现了中英翻译。
其他文献
随着国民经济的发展,人们对乙烯、丙烯等烯烃的需求日益增加。据悉,大力发展煤化工产业已成为构建能源格局的新方向,其中甲醇制烯烃工艺是以煤为原料生产化工原料的热门路线之一。为降低生产成本,提高产业竞争力,有必要对甲醇制烯烃装置的运行过程进行分析,从而优化操作工艺条件。本文以某甲醇制烯烃装置在实际运行过程中产生的数据及真实的运行情况为依据,对其运行中遇到的反应再生系统的催化剂跑损和水系统堵塞这两大问题进
新型的共振隧穿二极管(Resonant Tunneling Diode)由于其具有低功耗、高速以及特殊的I-V曲线特性,让其在振荡电路、逻辑器件、无线通信以及神经网络等领域有着广阔的应用前景。同时随着集成电路领域技术的不断发展,器件尺寸不断接近“摩尔定律”的极限。现有硅基技术的发展已经遇到了瓶颈。在这种状况下,集成电路领域对于一种能够替代硅的材料的需求迫在眉睫,由于二维材料具有较高的载流子迁移率、
灰狼优化算法是受灰狼等级以及灰狼捕食行为的启发提出的元启发式算法,具有结构简单、控制参数少、较易于实现等特点。但是该算法也存在收敛速度慢、收敛精度不高、易陷入局部极值的问题。因此本文对灰狼优化算法的结构、参数、更新机制进行研究和分析,采用一些策略针对存在的不足进行改进,提高算法的性能并拓展了应用领域。主要研究内容如下:(1)通过引入精英反向学习策略、将收敛因子从线性改为非线性,重新设计位置更新公式
光催化技术目前在环境和能源领域都拥有越来越广阔的前景,是有效利用太阳能,解决能源与环境问题的重要手段。石墨相氮化碳(g-C3N4)是一种具有可见光响应的新型光催化材料,具有无毒无害,制备简单,良好的热稳定性和化学稳定性等优点,是近些年来的研究热点材料。但g-C3N4也存在比表面积小,可见光响应不足,光生电子和空穴复合率过高等问题。本文针对g-C3N4存在的缺陷,通过引入另一半导体材料氧化铈(CeO
表面增强拉曼光谱法(Surface Enhanced Raman Spectroscopy,SERS)是一种强大的光学技术,在分析化学中有着信息丰富、灵敏度高、操作便捷等优势。然而,SERS技术在小分子检测、自组装功能和经济性方面仍有一定局限。本文主要研究金纳米粒子基底的自组装和功能化,使其具有更高的SERS活性和更广泛的应用范围,并在污染物的分析中探究其检测性能及原理。研究的主要内容有:1.基于
狂犬病(Rabies)是由狂犬病病毒(Rabies virus,RV)感染引起的一种致死性人畜共患传染病。该病呈全球性分布,亚洲尤其是我国流行较为严重,对人类生命安全构成严重威胁。疫苗免疫仍是预防和控制狂犬病的最可靠的手段,但由于常规疫苗普遍存在难以避免的安全隐患等问题,故研究和开发免疫效果好、成本低廉的新型狂犬病疫苗已成为研究热点。利用植物生物反应器生产动物疫苗是廉价高效疫苗的可靠来源之一,受到
小江瓷是广西浦北的民间陶瓷,其制瓷工艺吸纳了江西、湖南等地的风格,粗瓷细瓷百花齐放,瓷艺风格变化万千,其产品曾畅销于两广地区以及远销越南等地。在历史方面,小江瓷属于浦北瓷的一部分,其历史渊源久远。南朝至隋唐时期的越州故城遗址就出土了瓦当等陶瓷遗物,宋代浦北土东窑址烧制了大量青白瓷。明末受景德镇影响小江瓷正式登上历史舞台,历经清代、民国、抗战、文革、改革开放以后发展至今,在不同的历史时期均表现出不同
粉垄技术是广西农科院韦本辉团队发明的深耕深松不乱土层,一次性完成耕整地作业的全新农业耕作技术。自2008年粉垄技术诞生以来,粉垄技术体系不断完善,发展出:粉垄机械耕作技术、粉垄栽培技术、粉垄改良生态技术等多种粉垄技术模式。粉垄团队在全国开展种类多样的粉垄实验,获得大量实验数据,阐释粉垄实现保水增产提质生态减灾的深层机理。论文基于粉垄技术现有相关成果,通过田野调查和文献相结合的方法,收集粉垄技术发展
科学教育的基本目标是培养受教育者的科学素养,科学本质观是科学素养的重要组成部分。帮助学生理解科学的本质已成为国际科学教育的前沿性课题,提高全体国民包括正在成长中的大学生的科学素养已成为各国决策者高度重视的战略问题。然而,我国目前科学教育的模式造成了文科大学生的科学素养普遍不高,所以研究当代文科大学生的科学本质观的现状,考察其中存在的问题并加以改变,是一项很值得研究的课题。本文的研究目的是在了解文科
通过淬火-配分工艺可以获得低碳马氏体+高碳奥氏体的复相组织,成为开发超高强度的第三代先进高强钢的热点方向。为简化生产工艺和降低设备投入,本文提出动态配分型高强塑性马氏体钢的开发思路。本文以28Mn3型中锰钢12 mm热轧厚板和1.6 mm冷轧薄板为研究对象,首先探究了实验钢的两相区退火时的工艺参数对组织和性能的影响规律;然后在两相区退火处理的基础上进一步研究了实验钢厚板和冷轧薄板的快速加热淬火工艺