基于特征向量的名词短语指代消解研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:djlmail
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
指代消解是自然语言处理中的一个重要问题,包括专有名词、普通名词、代词的指代识别。为了解决文本中的指代问题,本文采用了基于特征向量的机器学习方法,将指代问题转换成一个分类问题,实现了一个基于机器学习的针对所有名词短语的指代消解平台。本文通过对英文原始语料进行词性标注、命名实体识别和名词短语识别等一系列预处理,选取了多个有效特征及其组合,分别采用最大熵和SVM两种分类算法对名词短语进行分类,并用MUC Scorer的评测程序进行评测,在MUC-6语料库上分别得到了F值68.0和68.1的结果。为了验证系统是否具有可移植性,本文又选用了ACE2003语料库,系统在采用SVM分类器的情况下,在BNEWS,NPAPER和NWIRE三个类别的数据源上,F值分别达到了53.1,58.4和54.2。从实验结果上看,本文所介绍的英文指代消解系统优于同类型的其它平台。在英文指代消解的基础上,本文实现了中文指代消解的系统框架,对基于机器学习的中文指代消解进行了尝试。系统采用ACE2005中文语料作为实验数据,从标注文本中抽取了部分主要特征,并通过一些简单规则识别了另外一些特征,随机抽取BNEWS语料中200篇文章作为训练集,98篇文章作为测试集,F值达到了70.83。特别是,本文系统深入地研究了特征向量及其取值方式对基于机器学习的指代消解的影响;不同机器学习方法对指代消解的影响;系统对不同语料的消解能力;中英文指代消解的相同和不同之处。通过对比实验结果,检查实验错误,分析了中英文指代消解系统的错误类型和解决方案,为接下来的研究奠定了基础。实验表明,本文的指代消解系统性能较高,对机器学习算法兼容性较强,可以解决各种类型的名词和名词短语的指代消解问题。
其他文献
媒体服务是在IP网上基于流式传输技术,向用户提供实时音视频媒体播放的业务。由于无需等待文件下载完成就可实现在线观看,因此流媒体应用自推出以来就受到用户的普遍欢迎,近
本课题由上海市高校科技发展基金项目“储罐远程监控单元(RTU)”、上海师范大学科研成果产业化(中试)项目和上海师大青年基金项目“新型SCADA系统的研制和应用”立项和资助。
当今的互联网飞速发展,通信技术和网络技术日新月异,已经渗透到全社会各个领域,对人们的生活,学习和工作产生了深远的影响。互联网技术翻天覆地的发展,以文字和图像为主的互
软件工程发展到今天,在其工程化,工业化上我们取得了长足的进步,我们积累了越来越多的软件工程方法论来指导实践,但是,我们仍然在实践中遇到各种各样难题甚至导致项目失败。低生产率的软件开发重复劳动和由于应用系统之间过分孤立而导致的信息共享程度低是两个重要的方面,软件重用和企业应用集成即是为解决这两个问题而产生的软件工程研究领域。这两者之间是有内在联系的,软件重用度的提高有助于实现企业应用系统的集成,而应
软件测试是软件工程的核心部分,是保证软件质量的关键步骤。飞行管理系统(FMS)作为数字化航空电子系统的核心,具有区域导航、制导、性能管理等功能,是飞机上最为复杂的航空电
按照普通高校课程教学质量标准开发和建设课程考试标准题库,通过远程网络为普通高校课程考试提供试卷服务,使同一教学目标条件下的不同时间、地点的考生成绩等值可比,这对于
Internet技术的飞速发展,虽然使流媒体分发技术取得了长足的进步,但日益增加的用户和视频数据也给大规模流媒体分发服务带来了新的挑战。与此同时,P2P技术也随着网络带宽的改
蛋白质与蛋白质间的相互作用预测和蛋白质功能预测是后基因组时代生物学中很重要的研究内容。在蛋白质相互作用网络上,人们对这两个问题已经做了大量的研究工作。 本文重点
光学相干层析技术(OCT)由于具有高分辨率、非侵入、无损伤以及实时成像的特点,已经广泛的应用于生物医学领域。由于 OCT图像成像原理的影响,边缘信息受到极大的干扰,直接分割相
初等数学应用题自动求解的研究存在两个方面的难点:题意理解和推演计算。本文以自然语言处理和自动推理相关技术为研究的理论基础,以我国高中概率统计方面应用题为研究对象,