论文部分内容阅读
中国盲文是以汉语拼音为基础发展而来的文字,以盲符形式进行表示。汉语文本中,汉字、词汇之间无显性边界,而在汉语盲文中,词与词之间以空方作为边界。因此汉语翻译为盲文时,须先将汉语进行分词连写,然后转换为拼音,才能根据拼音与盲文的对应关系,将拼音转换为盲文。所以分词连写是汉语盲文中非常重要的规则。传统机器学习的汉语盲文分词连写方法需要人为地从汉语文本中提取特征,依赖于复杂的特征工程。而深度学习的方法可以让计算机在多个抽象层次自动学习特征,不必完全依靠人工特征,特别是字向量的出现,使得深层次的神经网络变得更容易训练。本文在现有标准中文分词数据集的基础上,按照汉语盲文分词连写的规则构建了一个汉语盲文分词连写数据集。然后使用BI-LSTM-CRF神经网络模型作为汉语盲文分词连写任务的基本框架,鉴于汉语盲文分词连写规则大多是基于词性特征进行分词连写,现有的神经网络模型仅仅考虑了数据中的词位信息,使得模型不能充分学习到数据的特征。通过对神经网络模型的字向量中添加词性特征,增加了相同词性字之间的相似度,并将其用于优化神经网络的输入,改进了该神经网络模型。利用条件随机场(CRF)能标记句子级别信息的特性,同时还能考虑输出标签前后之间的依赖关系。通过训练得到的标签转移矩阵,在预测过程中使用维特比算法进行解码,能避免出现无效的标签组合。本文通过对比实验发现改进的BI-LSTM-CRF神经网络模型具有很好的分词连写效果。最后通过使用该改进的神经网络模型搭建了一个汉语盲文分词连写Web系统,用户可以通过浏览器访问本系统,将汉语文本转化为符合汉语盲文分词连写规则的文本。