论文部分内容阅读
歧义是自然语言中普遍存在的现象,而利用现代计算机技术,根据语义因素、上下文因素、甚至是语言因素之外的常识,来自动确定歧义词在特定环境下的词义就是语义排歧。语义排歧是自然语言处理领域的最棘手的难题之一,其准确率的高低将很大程度决定机器翻译、信息检索、文本分类等自然语言处理的效果。因此语义排歧研究一直都是自然语言处理领域的热点问题,并在知识库的构造、知识获取、特征选择和学习算法方面已经取得了显著进步。然而,虽然排歧方法得到迅速的发展,但排歧的对象却始终限于普通名词和动词,对于像情态动词这样语义更加模糊、对语境更为敏感的词类的语义排歧,目前尚未发现。本质上,语义排歧的研究对象是语言,所以,将语言学领域中对于语言现象和本质的研究结果应用于语义排歧问题,将推动语义排歧向更深度和广度发展。特别是在情态意义方面,语言中的情态研究历史可以追溯至两千多年前的古希腊,尤其是随着上世纪现代语言学的兴起,情态意义研究更是百家争鸣,研究的方法也更新、更系统、更多样化、更贴近语言的实际使用。利用语言学中关于情态动词的研究成果,构建一个英语情态动词的语义排歧模型,在理论上是有可行性的,并且能够将语义排歧从目前对普通名词和动词的表层语义的排歧上升至情态语义的排歧。而从另一方面来说,语义排歧的发展也能在一定程度上服务于语言学研究,如果能够实现情态动词的自动语义排歧,那么在语言学家采用大规模语料库研究情态动词时,每个情态动词的语义可以实现自动标注,这样就能节省很大的时间和精力,提高研究效率。因此,本文的研究结果将对语言学研究具有理论意义和实践指导意义。本文采用自然科学领域已经广泛使用的人工神经网络技术和方法,利用神经网络的自组织、自适应和高容错性等特点,通过对大规模真实语料库的学习,构建了一个针对英语情态动词may的语义排歧模型,该模型最终达到了78%的排歧正确率,达到了比较理想的结果。