论文部分内容阅读
离合词的自动识别在英汉机器翻译、信息检索和语音识别等许多领域都有非常重要的影响。现有的针对离合词自动识别问题的研究以少量个例的离合词为主,而针对大规模语料的离合词研究目前还乏善可陈。本课题以1991-2004年十四年的新华社新闻语料作为原始语料进行离合词自动识别方法的研究,不仅规模较大,而且范围更广。本文研究的主要内容包括:离合词词表和候选离合词语料的构建。从原始语料中提取原始候选语料,并通过原始候选语料动态地生成离合词词表。由于离合词较强的规则性,使得本文所构建的离合词词表的正确性较高,且不依赖于现有已标注好的离合词词表。在得到离合词词表之后,将原始候选语料用该词表进行筛选得到后续工作所需的候选离合词语料。基于规则匹配的离合词自动识别方法研究。本文首先通过规则匹配的方式对候选离合词语料中的离合词进行判断。实验结果表明,规则匹配的方式在本文所使用的语料中实现了较高的精确率。基于传统机器学习方法的离合词自动识别方法研究。由于规则匹配的方式对于规则性不强的句子无法进行识别,因此本文尝试采用传统机器学习的方法对这类句子进行处理。首先针对这类句子的特点构建了特征模板;其次使用特征模板提取正负例句子的特征;最后利用K-近邻和支持向量机方法进行分类。实验结果表明,传统机器学习方法对规则匹配无法处理的句子取得了较为理想的识别效果。基于神经网络的离合词自动识别方法研究。传统机器学习方法虽然可以识别规则性不强的句子,但是它的劣势在于要设计大量的特征模板,特征的选取会对实验的结果造成一定的影响,而神经网络则很好地避免了特征提取的问题。因此,本文设计了基于注意力机制的循环神经网络模型来对规则匹配无法处理的句子进行识别。实验结果表明,该模型相比较于机器学习方法,识别效果又有了一定提升。离合词自动识别级联模型的构建。通过上述方法,本文分别构建了(1)规则匹配+KNN、(2)规则匹配+SVM、(3)规则匹配+神经网络3个级联模型用于离合词的自动识别,最后通过投票的方式综合三个级联模型的识别结果。实验结果表明,级联模型对语料中的离合词具有很好的识别效果,具有很强的实用性。