论文部分内容阅读
介词作为虚词的一种,本身并不具有像实词那样具体的词汇意义,但是介词以及介词短语承担着十分繁重的语法表现任务,其对于汉语的语法分析以及语义理解有至关重要的作用。相同的介词在不同的上下文环境中可能具有不同的语义,具有不同的用法。因此,本文对介词用法进行全面细致的研究,通过人工总结以及机器学习的方法来找出其中的规律,并进行形式化描述,建立了介词用法知识库。在建立的介词用法知识库的基础上,分别进行了基于规则的介词用法自动识别研究、基于统计的介词用法自动识别研究以及规则统计相结合的介词用法自动识别研究。从实验结果来看,基于规则方法的介词自动识别结果准确率为67.38%,基于统计方法的介词用法自动识别结果准确率为76.80%,并采用两种规则统计相结合的方法,其中宏观结合的准确率为78.47%,比规则方法高11.09%,比统计提高1.67%,微观结合准确率为82.02%,比规则方法高14.64%,比统计方法高5.22%。因此规则与统计微观结合的识别方法是目前本文研究介词用法自动识别的最佳方法。介词用法以及介词用法自动识别的研究为介词在相关领域的应用提供了可能性,本文提出了一种基于介词用法的事件信息抽取方法。考虑介词的作用,即用于标明与动作、性状有关的原因、目的、时间、处所、方式、受事、施事、对象等,介词对句子结构及句子成分有很好的标记作用,使句子所蕴含的信息明朗化,有助于进行事件信息抽取。在本文的实验结果中,使用原始语料的准确率、召回率和F值分别为71.71%、69.65%、70.66%,使用标准语料的准确率、召回率和F值分别为92.24%、89.83%、91.02%,使用机器自动识别介词用法的语料,准确率、召回率及F值分别为90.88%、86.92%、88.86%。由此结果可以看出,介词用法的研究对信息抽取是有一定价值的。最后,对论文的研究工作进行了总结与展望,指出构建介词知识库是对介词研究特别是面向机器的介词研究的一个重要成果,同时对介词用法的研究也为信息抽取技术提供了服务,并根据本文的已有研究结果明确了下一步所研究的内容。