论文部分内容阅读
本文对词汇功能的类别定义进行研究,构建了一个领域无关词汇功能和领域相关词汇功能相结合的学术文本词汇功能框架。本文在词汇功能框架定义的基础上,提出了两种方法以自动识别学术文本的词汇功能。考虑到词汇功能的领域适用性,本文还将借用开放信息抽取的思想,研究了适用于学术文本分析的开放信息抽取方法。具体而言,本论文的主要贡献在以下几个方面:1.对学术文本词汇功能进行定义,探讨了词汇功能显现的机理;基于对词汇功能显现机理的分析,构建了一个领域无关词汇功能和领域相关词汇功能相结合的学术文本词汇功能框架。2.本文提提出了一种基于条件随机场的学术文本功能识别方法,实验表明,该方法具有较好的实验效果。本文还提出了一种基于word2vec的动词词汇角色聚类方法,能够将原本词义不同但在一定上下文环境下表现出同样功能角色的词汇聚类到一起。3.针对学术文本的核心问题与核心方法识别,提出了一种基于机器排序模型的自动抽取方法。提出了一种基于中英对齐文本的快速构建标注数据的方法。4.针对学术文本,提出了一种开放信息抽取方案以及系统实现EXVerb,通过术语识别、句法分析、概念关系网络构造以及关系生成,EXVerb能够较好的从学术文本中识别关系数据,同其它系统相比,该系统能够在保证准确率近似的的前提下大幅提升召回。虽然本文的研究内容对学术文本的词汇功能分析研究有了一定的推进,但仍然存在一些问题,还需要进一步研究:1.如何进一步提高词汇功能自动识别的效果。当前的方法准确率和召回率依旧很低,还有很大的提升空间和必要,需要进一步探索新的方法,提升自动识别的准确率和召回率。2.学术文本词汇功能识别应该如何应用。本文仅仅给出一种应用的尝试,而学术文本词汇功能识别的潜在应用点很多,如何更好的应用这一个技术和思想,将是未来研究的一个方向。3.本文在定义学术文本词汇功能时,没有对词汇之间的关系进行建模,未来还需要进一步从词汇关系角度探索学术文本的深层语义分析。4.本文提出了一种面向学术文本的开放信息抽取方案,但这仅仅是一个简单的尝试,如何提升抽取效果,还需要进一步研究。