基于最大熵的中文术语抽取系统的设计与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:dalang003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在阅读学术资料时,人们总是希望能迅速准确地把握文章中的术语词及其定义,从而能更好地理解和把握主题;在自然语言处理的工作中,研究者也希望通过对术语的正确识别来为其它深层的研究提供支持。因此本文对中文术语抽取和中文术语定义抽取展开研究,并设计实现了基于最大熵的中文术语抽取系统,它包括中文术语抽取子系统和中文术语定义抽取子系统。中文术语抽取子系统基于最大熵进行术语抽取。它利用大量的已有术语,学习其内部结构特征,借助最大熵工具来训练分类模型,通过该模型对候选术语词进行分类来判定其是否为术语词。评测结果显示,该系统术语抽取的准确率可达63.75%,召回率可达到78.84%;中文术语定义抽取子系统结合多个知识库,从网络中查询并抽取术语词的准确释义;本文设计实现的基于最大熵的中文术语抽取系统还基于AJAX技术,提供了用户反馈的功能,通过用户提交的识别错误升级完善系统。此系统能够准确快速地对中文文本进行术语及其定义的抽取,其界面简洁美观,给用户处理术语带来了很大的方便。
其他文献
在当前社会经济迅速发展过程中,对大学生就业提出了更高的要求和标准。因此,本文主要针对药学专业大学生就业形势展开论述,然后结合实际情况,提出相应的对策,给药学专业大学
在寸土寸金的苏锡经济发达地区,传统的栽桑养蚕已经完全不可能与工业生产、甚至与高效设施农业竞争土地资源。但在明年就要迈入现代化的吴江市平望镇,从今春开始就大面积整治土