学术文本的词汇功能识别

来源 :武汉大学 | 被引量 : 10次 | 上传用户:liongliong542
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文对词汇功能的类别定义进行研究,构建了一个领域无关词汇功能和领域相关词汇功能相结合的学术文本词汇功能框架。本文在词汇功能框架定义的基础上,提出了两种方法以自动识别学术文本的词汇功能。考虑到词汇功能的领域适用性,本文还将借用开放信息抽取的思想,研究了适用于学术文本分析的开放信息抽取方法。具体而言,本论文的主要贡献在以下几个方面:1.对学术文本词汇功能进行定义,探讨了词汇功能显现的机理;基于对词汇功能显现机理的分析,构建了一个领域无关词汇功能和领域相关词汇功能相结合的学术文本词汇功能框架。2.本文提提出了一种基于条件随机场的学术文本功能识别方法,实验表明,该方法具有较好的实验效果。本文还提出了一种基于word2vec的动词词汇角色聚类方法,能够将原本词义不同但在一定上下文环境下表现出同样功能角色的词汇聚类到一起。3.针对学术文本的核心问题与核心方法识别,提出了一种基于机器排序模型的自动抽取方法。提出了一种基于中英对齐文本的快速构建标注数据的方法。4.针对学术文本,提出了一种开放信息抽取方案以及系统实现EXVerb,通过术语识别、句法分析、概念关系网络构造以及关系生成,EXVerb能够较好的从学术文本中识别关系数据,同其它系统相比,该系统能够在保证准确率近似的的前提下大幅提升召回。虽然本文的研究内容对学术文本的词汇功能分析研究有了一定的推进,但仍然存在一些问题,还需要进一步研究:1.如何进一步提高词汇功能自动识别的效果。当前的方法准确率和召回率依旧很低,还有很大的提升空间和必要,需要进一步探索新的方法,提升自动识别的准确率和召回率。2.学术文本词汇功能识别应该如何应用。本文仅仅给出一种应用的尝试,而学术文本词汇功能识别的潜在应用点很多,如何更好的应用这一个技术和思想,将是未来研究的一个方向。3.本文在定义学术文本词汇功能时,没有对词汇之间的关系进行建模,未来还需要进一步从词汇关系角度探索学术文本的深层语义分析。4.本文提出了一种面向学术文本的开放信息抽取方案,但这仅仅是一个简单的尝试,如何提升抽取效果,还需要进一步研究。
其他文献
本文以现代汉语中七个高程度构式为研究对象,在突显观的视角下试图从一些不同的角度探寻汉语高程度语义实现的多种可能机制与途径。从构式义的解析与浮现、构式固定部分的构
罗勒是一种药食两用的一年生草本植物,在全国各地均有种植。分析了近年来国内外对罗勒有效成份药理作用的研究,并对罗勒挥发油的提取作一综述。
类指句由类指成分和属性谓语构成,通过对一类事物作事实判断或价值判断,揭示事物的内涵属性;能容忍反例,具有内涵性、非个体性和虚拟性。类指句的语言学研究主要从语义、语用
保证电力建设安全施工关系到国家稳定发展,其中影响电力工程安全建设的主要因素包括工作环境因素、技术因素、设备因素以及人为因素等。因此,将从人员、设备和管理等方面出发
目的介绍抗SARS病毒的药物及疫苗设计策略.方法综述近期国内外相关文献.结果这些策略主要包括阻断病毒与宿主细胞脂膜融合,阻止病毒颗粒复制等,以及与此相关的抑制剂、多肽等
目的分析直肠癌MRI非形态学表征(血流动力学、功能学)与Her-2表达水平的相关性。方法回顾性分析56例经手术病理证实的直肠癌患者,术前行盆腔常规MRI、直肠DWI及增强扫描,分别记
目的探讨中医活血化瘀法治疗视网膜中央动脉栓塞的实际治疗效果。方法本文选取了我院2009年11月至2012年8月间经检查,被确诊为视网膜中央动脉栓塞的患者68例,针对相关治疗效
因果关系是指"原因"和"结果"之间相互联系,也是一种客观世界普遍联系的重要表达形式。因果关系的一个重要特征一般是先说原因,再说结果,即"前因后果"式。有时则反过来,原因不
体验式教学模式下,基于课程考核存在形式单一、内容不够全面以及考核结果不够客观等问题。提出以"立德树人"和"就业需求导向"为指导思想,遵循知行统一、过程和结果统一、个人和团
本文选取十三种较能反映口语的元代材料,对疑问句、比拟式、被动式和处置式四个句法专题进行穷尽性考察,明确这些重要的句法现象在元代的发展情况以及在汉语史中的定位。特指