介词用法自动识别及其在信息抽取中的应用研究

被引量 : 0次 | 上传用户:yanghao_711
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
介词作为虚词的一种,本身并不具有像实词那样具体的词汇意义,但是介词以及介词短语承担着十分繁重的语法表现任务,其对于汉语的语法分析以及语义理解有至关重要的作用。相同的介词在不同的上下文环境中可能具有不同的语义,具有不同的用法。因此,本文对介词用法进行全面细致的研究,通过人工总结以及机器学习的方法来找出其中的规律,并进行形式化描述,建立了介词用法知识库。在建立的介词用法知识库的基础上,分别进行了基于规则的介词用法自动识别研究、基于统计的介词用法自动识别研究以及规则统计相结合的介词用法自动识别研究。从实验结果来看,基于规则方法的介词自动识别结果准确率为67.38%,基于统计方法的介词用法自动识别结果准确率为76.80%,并采用两种规则统计相结合的方法,其中宏观结合的准确率为78.47%,比规则方法高11.09%,比统计提高1.67%,微观结合准确率为82.02%,比规则方法高14.64%,比统计方法高5.22%。因此规则与统计微观结合的识别方法是目前本文研究介词用法自动识别的最佳方法。介词用法以及介词用法自动识别的研究为介词在相关领域的应用提供了可能性,本文提出了一种基于介词用法的事件信息抽取方法。考虑介词的作用,即用于标明与动作、性状有关的原因、目的、时间、处所、方式、受事、施事、对象等,介词对句子结构及句子成分有很好的标记作用,使句子所蕴含的信息明朗化,有助于进行事件信息抽取。在本文的实验结果中,使用原始语料的准确率、召回率和F值分别为71.71%、69.65%、70.66%,使用标准语料的准确率、召回率和F值分别为92.24%、89.83%、91.02%,使用机器自动识别介词用法的语料,准确率、召回率及F值分别为90.88%、86.92%、88.86%。由此结果可以看出,介词用法的研究对信息抽取是有一定价值的。最后,对论文的研究工作进行了总结与展望,指出构建介词知识库是对介词研究特别是面向机器的介词研究的一个重要成果,同时对介词用法的研究也为信息抽取技术提供了服务,并根据本文的已有研究结果明确了下一步所研究的内容。
其他文献
毒品犯罪是20世纪以来严重危害人类社会的的几大全球性犯罪之一。世界毒源地与毒品消费国的地理位置决定了毒品的海上运输是国际毒品犯罪的主要形式,通过在海上打击运毒活动,
通信建设过程中无线移动通信基站是一类重要的设备,可确保移动通信的持续健康运营。为推进移动通信事业的持久良好发展,需要对通信基站展开定期的校验核查,方能预防故障问题,
铜绿假单胞菌(Pseudomonas aeruginosa, PA)是一种分布特别广泛的条件性致病菌,在烧伤病人、免疫力低下病人体内,它几乎可以感染人体的任何组织甚至危及患者生命。Ⅲ型分泌系
全景漫游技术可以实现网络上的虚拟场景漫游,因其具有良好的交互性、沉浸性受到众多用户的青睐。传统漫游技术如VRML、 QuickTime、 Flash等大多存在标准不一、插件依赖、封
建立VAR模型实证分析山东省对外直接投资与进出口贸易间的动态关系,结果表明山东省对外直接投资与进出口贸易之间存在着一种长期稳定的均衡关系,山东省进出口贸易有利于对外
<正> 引言由于力学许多分支,如气体动力学、水力学、塑性力学以及电磁流体力学等发展的要求,引起了人们研究拟线性双曲型方程组间断解的兴趣.目前,拟线性方程式的研究已经比
《资治通鉴》在叙事、写人方面具有鲜明的文学特征:运用多种叙述手法,以情节演绎历史;以第三人称全知视角叙事为主,结合运用限知视角叙事;"遥体人情,悬想事势",叙事中融入合
随着时代的进步,现今大学生应该是最具有活力、最有朝气的一部分积极分子,然而因为网络发展的迅速以及社会发展的不平衡致使许多大学生将过多的时间浪费在网络和虚拟世界中;
随着我国社会主义市场经济体制改革的不断完善,国家和企业对风险都有了全新的认识和体会。转变了以前的项目风险所产生的损失都由政府承担的思路,开始推行“谁投资,谁决策,谁
此文多角度考察比喻构词的语言特点,以此来阐明比喻作为新词构成方式的语言学理据。比喻作为构词方式应从两方面来看,一是比喻在构成新词前,作为抽象的语言因素是构词的一种