论文部分内容阅读
自然语言的歧义性,是计算机处理和理解文本的重大难题之一。语言的各个层面都存在歧义性,包括语音、词法、句法、语义和语用等。本文重点关注词法层面歧义的处理,即自动词义消歧。自动词义消歧,即在特定的上下文中为单词选择合适的词义,是自然语言处理中最为基础的核心技术之一。对机器翻译、信息检索、语义分析等领域起着十分重要的支撑作用。随着九十年代机器学习技术的快速发展,有监督机器学习算法在词义消歧中取得了优势。然而,在目前的词义消歧研究中,大多只是逐个地对出现的每个多义词进行消歧,而且没有考虑相邻多义词消歧结果之间的相关性,以及对整个句子的多义词消歧结果的全局优化。本文以全局优化为着眼点,重点考察结构化机器学习方法在词义消歧的应用,并将句法结构与机器学习方法的图结构有机的结合,进一步提高词义消歧的性能。此外,标注数据匮乏一直是困扰词义消歧的问题。对多义词进行人工标注是一个非常耗费人力的过程,目前没有任何一种语言具有充分多的词义标注语料。相反,无标注语料却是大量存在的,尤其互联网上存在海量的无标注文本。如何利用这些唾手可得的无标注语料来增强词义消歧的性能,是一个受到广泛关注的方向。本文考察了话题特征和自举在词义消歧的应用。本文具体研究内容如下:(1)采用隐马尔可夫模型对全文消歧进行精确建模,引入一步上下文依赖关系,并进一步扩展为最大熵马尔可夫模型,以集成非独立的语言学特征。全文消歧是对给定文本中全部开放词(包括名词、动词、形容词和副词)进行消歧,它的一个突出特点就是各个多义词的消歧结果是相关的。据我们所知,目前的方法很少考虑到这一特点,而将每个多义词单独进行消歧。本文则充分利用这一特点,首先,用隐马尔可夫模型对全文消歧进行建模,将全文消歧转化为一个线性序列标注问题。然后,针对隐马尔可夫模型只能利用较为单一观察值的缺点,本文将其扩展为最大熵马尔可夫模型,将大量的上下文特征集成到模型中。再次,由于全词消歧包含大量状态,在隐马尔可夫模型和最大熵马尔可夫模型中均存在数据稀疏和高时间复杂度的问题,本文设计了柱状搜索Viterbi算法和平滑策略来解决。最后,在Senseval-2和Senseval-2004的英语全文消歧数据集上进行了评测,本文提出的基于最大熵马尔可夫模型的消歧方法与国际上权威评测Senseval中最好的结果相当。(2)利用条件随机域消除“消歧标记偏置”,用近似训练、并行化等手段解决模型复杂度过高的问题,并用依存句法树扩展模型的图结构。对于全文消歧而言,由于最大熵马尔可夫模型需要对逐个隐状态进行局部归一化,导致了“消歧标记偏置”问题。为了进一步提升消歧系统的性能,本文采用了条件随机域模型,它使用全局归一化来解决标记偏置问题。而条件随机域的时间复杂度很高,在单机上无法解决像全文消歧这样的大状态问题。本文通过近似训练、并行化等方法将条件随机域的训练时间复杂度由0(mLTN2)降为O(mLTR2),其中N为状态数,约为几万到十几万,R为一个词的最大可能词义数,约为数十;通过柱状搜索将条件随机域的解码时间复杂度由O(TN2)降为O(TR2)。本文在Senseval-2004英语全文消歧任务上对条件随机域进行实验,召回率(词义消歧的评测指标见3.6.2节)为0.657,高于该评测中的最好成绩。另外,为了在消歧过程中更好的利用句法树信息,本文将条件随机域的图结构由线性改为树状,使用树状条件随机域进行消歧。本文在Senseval-2004英语全文消歧任务上对树状条件随机域进行实验,召回率为0.668,说明加入句法信息能够提高词义消歧的性能。(3)利用话题特征提高词义消歧的性能。由于现有词义消歧的上下文信息较少,以及人工标注训练集规模不足,导致了严重的数据稀疏。话题模型作为一种无监督学习方法,试图对信息进行聚类和压缩,反映某种语义信息并提高词的泛化性。本文提出了一种融合话题特征的消歧方法,从无标注语料库推导出潜在狄利克莱话题特征,并用这些话题特征来提升词义消歧分类器的性能。该方法在Senseval-2004英语全文消歧任务上的召回率为0.68,超过了已知文献中的最好结果0.67。实验结果还显示:适当的话题数有助于消歧;背景语料库的性质对消歧性能有直接影响;规模大、平衡的背景语料库对消歧性能的提升较大。(4)采用自举的方法,结合标注语料和无标注语料来提高消歧系统的性能。人工标注语料的匮乏,和无标注语料的大量存在,促使我们考虑利用无标注语料来增强消歧系统的性能。该算法的基本思想是,用人工标注语料生成初始分类器,用这些初始分类器对无标注语料进行自动标注,然后从这些自动标注的语料中选取若干标注置信度较高的样本加入训练语料,使训练语料的规模增大。如此循环往复,期望通过训练语料规模的增大来改进分类器的性能。本文在Senseval-2004汉语采样词消歧任务上,系统的考察了自举算法中迭代次数、样本池大小和增长速度等经验参数对消歧性能的影响。针对在迭代过程中样本标记比例破坏的问题,本文设计了维持样本集类别比例的采样算法。针对自举算法经验参数对于数据过于敏感的问题,本文采样多个分类器进行平滑来增大获取最优经验参数的概率。