汉盲翻译中的分词连写算法研究

来源 :兰州大学 | 被引量 : 5次 | 上传用户:yangchao2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中国盲文是以汉语拼音为基础发展而来的文字,以盲符形式进行表示。汉语文本中,汉字、词汇之间无显性边界,而在汉语盲文中,词与词之间以空方作为边界。因此汉语翻译为盲文时,须先将汉语进行分词连写,然后转换为拼音,才能根据拼音与盲文的对应关系,将拼音转换为盲文。所以分词连写是汉语盲文中非常重要的规则。传统机器学习的汉语盲文分词连写方法需要人为地从汉语文本中提取特征,依赖于复杂的特征工程。而深度学习的方法可以让计算机在多个抽象层次自动学习特征,不必完全依靠人工特征,特别是字向量的出现,使得深层次的神经网络变得更容易训练。本文在现有标准中文分词数据集的基础上,按照汉语盲文分词连写的规则构建了一个汉语盲文分词连写数据集。然后使用BI-LSTM-CRF神经网络模型作为汉语盲文分词连写任务的基本框架,鉴于汉语盲文分词连写规则大多是基于词性特征进行分词连写,现有的神经网络模型仅仅考虑了数据中的词位信息,使得模型不能充分学习到数据的特征。通过对神经网络模型的字向量中添加词性特征,增加了相同词性字之间的相似度,并将其用于优化神经网络的输入,改进了该神经网络模型。利用条件随机场(CRF)能标记句子级别信息的特性,同时还能考虑输出标签前后之间的依赖关系。通过训练得到的标签转移矩阵,在预测过程中使用维特比算法进行解码,能避免出现无效的标签组合。本文通过对比实验发现改进的BI-LSTM-CRF神经网络模型具有很好的分词连写效果。最后通过使用该改进的神经网络模型搭建了一个汉语盲文分词连写Web系统,用户可以通过浏览器访问本系统,将汉语文本转化为符合汉语盲文分词连写规则的文本。
其他文献
电力工程建设在不断发展,尤其是经济快速发展的今天,电力工程的发展速度也突飞猛进的增长,发展速度加快的同时也会伴随着各种问题的出现,这就要求相关部门根据现有的发展情况
通过构建一个小型风洞,在对几种典型形状物体的风阻研究基础上,从能量转化的角度,提出了一套对空气阻力系数的理论模型,并通过实验分别对4种不同形状的物体进行了定量验证,实
<正>沉香沈酒沉杳沈酒——微妙时机,从来需要等待。沈酒"沉香"由国际酿酒大师赖高淮、酒界泰斗沈怡方首次联手合作,深入挖掘,"唤醒"其香,精心勾调,不容有任何品质瑕疵,尽显"
本文分析了目前低环境温度热泵用涡旋压缩机运行特性及技术要求,并对制冷剂喷液冷却和喷气增焓两种涡旋压缩机技术的特点进行了对比介绍。针对低环境温度热泵开发了两款R410A
在中美发生贸易战以后,当年的"广场协议"又受到广泛的关注,不少学者强烈呼吁中国要避免签订类似的协议。本文通过对战后的日元汇率变化情况的回顾分析后认为,"广场协议"实际
海上的飞行目标的飞行海域环境气象条件比陆地复杂,在进行目标红外辐射特性测量时,大气透过率不确定度增加.本文以海上飞行目标为例,设计了一种基于参考黑体的飞行目标红外辐