论文部分内容阅读
名词短语是文本信息的重要组成部分,往往承载着语句的核心意义。作为高于词而低于句子的中间级结构,名词短语具有比单个词更完整明确的语义信息,可一定程度上解决语言歧义问题。此外,正确识别名词短语有助于把握句子的主要框架结构,降低句法分析的难度与复杂度。本文以越南语名词短语识别为具体任务,在越南语名词短语标注语料库的基础上统计分析其内部结构与边界特征,并将所得语言学特征融入到识别模型之中对越南语名词短语进行识别。其主要研究内容及创新点如下:(1)对越南语名词短语的语言学特征进行了基于语料库的统计调查,揭示了越南语名词短语与词性之间的强关联关系、越南语名词短语的内部词性组合模式特征与边界特征,并对这些语言学特征与词性等语言学特征的不同点进行了比较分析。该部分是本文研究的语言学基础,也是对现有越南语名词短语语言学研究的丰富和补充。在此基础上,设计了越南语名词短语规则识别算法对越南语名词短语进行识别,并分析总结了越南语名词短语识别的难点与关键点。(2)在语言学调查中形成的越南语名词短语内部词性组合模式规则库与边界词词典的支持下,本文将越南语名词短语的边界特征与内部词性组合模式特征转化为二元特征,并将其融入CRF(Conditional Random Fields,条件随机场)模型对越南语名词短语进行了识别。实验结果显示,本文所提出的方法能够有效提升CRF模型对越南语名词短语的识别效果。(3)针对词向量无法表示短语级信息的缺陷,本文首先训练获取了越南语名词短语的整体向量化表示,通过对每一个词向量与名词短语类型向量之间的相似度进行建模,进一步获得名词短语边界信息的向量化表示,并成功应用在越南语名词短语识别当中。(4)针对越南语名词短语的内部词性组合模式特征,将多头注意力机制引入到Bi-LSTM(Bidirectional Long-Short-Term Memory,双向长短时记忆网络)+CRF模型当中,以提升模型对输入词序列间组合关系的关注。针对越南语名词短语与词性之间的强关联关系,将注意力机制引入到Bi-LSTM+CRF模型的输入层,使得模型具备了根据不同输入灵活调整词向量与词性特征向量在输入层权重的能力。实验结果表明,上述对Bi-LSM+CRF模型的两点改进均有效提升了模型对越南语名词短语的识别能力。(5)在使用CRF模型与深度学习模型对越南语名词短语进行识别的基础上,本文对两种模型的识别效果进行了对比,并对两种模型各自在利用越南语名词短语语言学特征方面的不同特点进行了分析。在此基础上,得到了识别效果最好的越南语名词短语识别方法,即以词向量、词性特征向量与边界向量为输入的Attention-over-Input-Layer+Bi-LSTM+CRF模型,该方法识别准确率达到91.65%,召回率达到92.48%。(6)在以实验的方式验证越南语名词短语语言学特征在名词短语识别任务中有效性的基础上,针对本文采用的越南语名词短语边界特征融入深度学习模型的方式,本文用可视化的方法对其有效性进行了阐述,增强了该方法的可解释性。本文对越南语名词短语的语言学特点与自动识别技术进行了较为全面的研究,并针对越南语名词短语的语言学特点对识别模型进行了多处改进。本文的研究成果提升了越南语名词短语的识别效果,研究思路和研究方法可以为相关研究者提供一定的参考和借鉴。