基于主题的中文事件抽取技术研究及应用

被引量 : 0次 | 上传用户:cnmSymbian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的发展,人们被包围在信息的汪洋大海之中。准确有效的从大量无序、杂乱、无结构的信息中提取感兴趣的事件信息,这正是事件抽取要解决的问题。现有的事件抽取的研究还主要局限在句子范围,然而,一个主题事件通常由多个状态和动作组成,其描述信息通常分散在一个或多个文档中,现有的事件抽取方法显然无法满足主题事件抽取的需要。本文在研究上述问题时,提出了将主题事件的抽取划分为三个层次,并将其应用到访问主题事件的抽取中。第一,句子范围的元事件抽取,主要抽取一些相关的动作和状态。第二,篇章范围内的事件信息抽取,根据主题事件的框架结构,在句子范围的元事件抽取的基础上,通过篇章范围的语义信息将这些元事件进行串联,形成主题事件片段。第三,跨篇章的事件信息归并,首先本文使用聚类的方法确定事件归并的范围;其次按照一定的归并条件,将满足条件的主题事件片段进行归并。通过这三个层次的信息抽取和归并,就可以得到一个主题事件的完整信息描述。本文首先介绍了事件抽取的基本概念,研究现状和当前面临的主要困难。其次提出了一种定义在论元结构层次的事件抽取模式,并提出了一种机器学习方法来获取事件抽取规则;该方法的特点是将语义角色标注技术应用于事件抽取,通过将触发动词支配的语义角色与待抽取的事件元素相对应,实现了句子范围内面向动词的事件信息的抽取。接着,本文介绍了一种基于元事件的事件知识表示框架,将主题事件看作是元事件的集合;抽取出框架中定义的元事件后,对其中的人物、地点、时间进行规格化处理,再利用指代关系、时间、地点这些重要的语义载体,在篇章范围内进行了初步的信息串联,从而获取了主题事件片段信息。然后,本文提出一种基于摘要的聚类方法将语料集合按照主题进行聚类,以此来确定跨篇章事件信息归并的范围。最后提出了一种简单的归并条件,用于对分散在不同文档的主题片段信息进行归并。对访问主题事件的抽取实验结果表明,本文提出的基于元事件的框架定义对事件知识的表达是有效的,指代关系、时间、地点等语义载体的规格化处理,有效的进行了篇章范围内事件信息的串联,排除了干扰信息。在主题事件聚类实验中,本文提出的基于摘要的主题事件聚类方法和相似度计算方法的改进,相比常规的聚类方法,其效果得到了明显提升。
其他文献
<正>明朝万历年间的文官集团,总数约为2万人,京官约占十分之一。文官绝大多数是科举出身,经过层层会试殿试,突出者可被任命为大学士,供职于文渊阁。因文渊阁为皇帝的直属机构
目的了解肿瘤介入病房护士压力来源及心理健康状况与常模的差异。方法采用护士压力源量表、症状自评量表(SCL-90)以问卷调查的方式对2个介入病区共40名护士进行调查。调查结
丝绸之路不仅是一条商贸之路,也是一条东西方文化交流之路,龟兹作为丝绸之路古道上的重镇,素来善于吸收东西方文明的养料。古龟兹境内保存了大量的佛教石窟壁画,其中可见其与
介绍了先进制造技术产生的背景及特点,分析了我国先进制造技术的发展现状及发展趋势,指出当前发展和应用先进制造技术是每个国家提高企业的国际竞争力和技术创新能力的必然选
汽车涂装过程中会出现许多缺陷,如:颗粒、针孔、流挂、缩孔等。根据解决一次中涂漆在施工过程中出现的缩孔来论述解决此类问题的方法。
高层建筑物鉴于荷载重,结构复杂,在施工期间,随着主体荷载的增加,势必造成建筑主体规则或不规则地下沉,它直接关系到工程施工各阶段的质量。因此高层建筑从施工到使用都必须
介绍了静电喷涂技术及其应用;讨论了粉末静电喷涂技术的机理、应用及发展前景。
企业破产制度是企业在市场竞争中,因各种原因不能清偿到期债务,通过清算、和解和重整等破产程序以使债权人获得公平清偿的法律制度,这一制度提供了保障债权债务关系公平、最
<正> 目前,在冷室压铸中,将液体金属输送入压铸机的压射室内的操作实现机械化和自动化,已成为急需解决的问题之一。我厂在捷2255型立式冷室压铸机上进行了自动浇注试验工作,
开发了一种新型的多管旋流板式分离器,并对其性能进行了试验研究。试验结果表明,这种新型多管旋流板式分离器的阻力系数为55左右;在一定工况下,气液分离效率能够达到>99%,并