基于神经网络的中文词义消歧研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:nj_wpp1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词汇的歧义性是自然语言的固有特征,词义消歧作为自然语言处理的一个基础任务,其结果对信息检索、机器翻译和信息抽取等上层任务具有直接影响。通过大规模语料训练的词向量包含了丰富的语义和句法信息,将其加入词义消歧模型中,可以提高模型的准确率。随着神经网络的发展和计算机处理能力的提高,神经网络在许多自然语言处理任务中取得了重大进展,但基于神经网络的中文词义消歧研究相对较少,且已有的少数工作忽略了目标词的外部知识。故本文对于中文词义消歧任务,分别从统计机器学习方法和神经网络方法进行研究,具体工作如下:(1)提出了基于词向量的支持向量机(Support Vector Machine,SVM)中文词义消歧模型。使用词向量表示的上下文词特征和词性特征代替之前统计机器学习方法中的复杂特征,作为SVM分类器的输入特征。本文使用ngram2vec模型训练的中文词向量,在词向量训练时将字特征和ngram特征加入到上下文特征中。该模型在SemEval 2007 task5中文采样词词义消歧任务中宏平均准确率为80.44%,相对于该数据集中机器学习模型的最好结果,宏平均准确率提高2.56%;在郑州大学构建的汉语词义标注语料库中微平均准确率达到83.18%。(2)提出了基于语言知识和神经网络的中文词义消歧模型。首先提出了基于双向长短时记忆网络(Bidirectional Long Short Term Memory,Bi-LSTM)的中文词义消歧模型,模型使用Bi-LSTM建模目标词上下文语义信息,通过softmax函数进行词义分类。然后提出了融合词典信息的中文词义消歧模型,将词典中的释义和例句作为外部知识添加到神经网络模型中,借助外部知识辅助词义判断。模型通过两个Bi-LSTM分别建模目标词的上下文信息和词典信息,使用注意力算法建模两者之间的语义关系,最后综合上下文信息和词典信息进行中文词义消歧。该模型在SemEval 2007语料中宏平均准确率达到85.28%。
其他文献
GaN基半导体材料因其在高亮度发光器件、大功率微波器件以及高压电力电子器件等方面的应用优势,近二十年来在学术研究和产业应用方面都受到了高度重视。不过,目前几乎所有的GaN
主题及论题陈述:德国功能主义翻译目的论至20世纪70年代诞生以来,影响日益扩大,已波及世界各地。然而,该派理论在受到诸多赞誉的同时,也遭到了不少学者的批评、质疑和误解。功
电机控制系统是数控火焰切割机自动调高器中的关键部件。提出了自动调高器中电机控制系统的方案,设计了基于单片机的PWM直流电机控制硬件电路,指出了本系统软件设计需解决的
首先介绍了A429-PC104板卡的体系结构,并对其各功能模块进行了说明;然后介绍了VxWorks下设备驱动程序的工作原理和编写方法,描述了VxWorksI/O系统、应用程序以及设备驱动程序
随着社会的发展,教师专业能力的发展已引起越来越多人的广泛关注,教师教学反思能力的提高是最重要的价值,受到教育专家、学者的重视、研究和实践。当前对教学反思的研究比较
命名活动是一项语言的、社会的基本活动,命名相应地有这两种分类。命名句是汉语命名中所特有的,命名句不是句子而是名称,但保持了句子的述谓形式。命名具有移动性,是语言系统
本文的研究重点是有机发光二极管和聚合物太阳电池中阴极界面修饰及界面物理的研究。主要包括以下两方面内容:1、利用碱金属盐LiF、NaF、CsF、Cs2CO3作为阴极界面修饰材料,制备
本文结合克拉玛依石化厂实际情况,从安全性、经济性出发,叙述建立适合现代企业设备管理维修的动设备振动故障诊断相对标准的方法,以及相时标准应用效果。 Based on the actu
今年3月5日是毛泽东“向雷锋同志学习”题词发表40周年的纪念日。本着大力弘扬雷锋精神、研讨雷锋精神的时代价值的宗旨,3月18日,本刊编辑部与清华大学高校德育研究中心在京
流水线模数转换器(ADC)在速度、精度和功耗上优越的折衷使其在通信、消费电子和医疗电子等现代科技应用中起到了重要的作用。增益数模单元(MDAC)和子模数转换单元(Sub-ADC)电路