论文部分内容阅读
歧义是自然语言中普遍存在的现象。根据语义因素、句法因素、甚至是语言因素之外的信息,来判断歧义词在特定环境下的词义就是语义排歧。语义排歧在自然语言处理中一直是一个难点热点问题,是机器翻译、信息检索、文本分类等都需要解决的一个重要问题,也是语言学研究的一个重要问题。语义排歧的方法有很多种,现在随着语料库语言学的出现和发展,用在语义排歧上的机器学习方法逐渐增多,如决策树、决策表、贝叶斯网络、神经网络、最大熵方法等,基于语料库的统计方法来进行语义排歧成为主导方法。其中,BP神经网络是一种在语义排歧研究中利用率很高的神经网络,而且,利用此种网络建立的消歧模型的可能性和优越性已在前人的研究中得到证实。然而,虽然排歧方法得到迅速的发展,但排歧的对象却始终限于那些语义分歧较明显的普通名词和动词,对于像情态动词这样语义模糊、对语境敏感的词类的语义排歧,研究甚少。因此,本文基于联结主义的理论,研究基于神经网络的情态动词语义排歧,旨在利用联结主义理论指导下的BP神经网络,通过对大规模真实语料库的学习,构建一个英语情态动词MUST的语义排歧模型,实现英语情态动词MUST的语义排歧。并在此基础上,研究不同语义和句法特征对情态动词MUST语义排歧效果的影响,进而确定不同语言学特征对MUST语义影响的程度。本文基于语料库成功地构建了一个针对英语情态动词MUST的BP神经网络语义排歧模型,该模型最终达到了96%的排歧正确率,是比较理想的结果。在此基础上,通过对模型提供不同语义特征信息而得出的不同结果的分析,研究了不同语言变量对神经网络语义排歧效果的影响和其影响等级。该研究的结果揭示了影响情态动词MUST语义的因素和影响程度,无论对情态动词的语言学研究还是对情态动词语义排歧中语言学特征向量的选择都提供了有价值的依据。该研究将语义排歧从目前对普通名词和动词的语义的排歧拓展至情态语义的排歧。另外,利用人工智能中的机器学习方法解决语言学问题,为语言学研究拓展了一种新的方法。在情态动词自动语义排歧实现后,当语言学家采用大规模语料库研究情态动词时,每个情态动词的语义可以实现自动标注,这样就能节省很多的时间和精力,提高研究效率。因此,本文的研究结果无论是对语言学研究还是对语义排歧研究都将具有一定的理论意义和实践指导意义。