基于最大熵的语义角色标注系统

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zx19910412
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言理解是计算机科学领域与人工智能领域中的一个重要方向,它主要研究用自然语言在人与计算机之间进行有效交流的理论和方法。计算机理解自然语言的前提条件是能够对自然语言语句进行语义分析。通过语义分析和深入的知识获取及推理,就有可能使计算机具有与人类进行无障碍沟通的能力。为达此目的,人们已经进行了多年的努力,然而目前取得的效果并不理想。  浅层语义分析,又称语义角色标注,是对深层语义分析的一种简化,它只标注与句子中谓语动词相关句法成份的语义角色,如施事、受事、时间和地点等。现有自然语言处理技术和统计学习技术的成熟,为浅层语义分析的实现提供了保证。浅层语义分析多被应用于问答系统、信息抽取和机器翻译等自然语言处理系统中。  本文设计并实现了一个基于最大熵模型的语义角色标注系统,该系统把句法成分作为语义标注的基本单元,采用从下向上的标注策略对基于语料生成的完全句法树进行语义角色标注,在对41个特征模板进行筛选后,最终采用36个特征模板进行特征提取,用最大熵模型对句子中谓语动词相关句法成分的语义角色同时进行识别和分类,在国际相关领域的评测标准下,最终在训练集外的测试集上获得了78.03%的Fβ-1值。文章最后分析了本系统的实验结果并对语义角色标注的发展做了展望。
其他文献
AdHoc网是由一组带有无线收发装置的移动终端组成的一个多跳临时性自组织网络。它起源于军事上的需求,并且近几年来,随着便携式计算机设备的普及以及无线通信技术的快速发展,人
基于模型的诊断是由Reiter在1987年提出的一种基于逻辑推理的故障诊断方法.待诊断系统的行为可以通过系统的输入输出变量之间的对应关系来描述.由于其一般性和在许多领域的应
电子邮件过滤系统的主要任务是帮助用户节省手动删除垃圾邮件的时间和精力,帮助服务器过滤掉垃圾邮件以节省网络资源。邮件过滤属于文本分类的二值分类,系统必须具有实时性、高
许多工业生产存在非线性、时变性、维数高的等不确定性特点,因此较难用传统的建模方法进行精确地描述。为构造一个合理的、可追踪的模型就需要引入模糊性的概念,并且理论已经证
数字视频属于国家重点发展的信息产业领域,宽带网络和数字电视的迅速发展,使得视频点播、交互电视、视频网站等应用都将面临大量涌现的数字化视频数据,对视频摘要技术的研究对基
语义网提出以来,本体(ontology)正在成为人工智能和知识工程中的一种重要工具,在知识的获取、表示、分析和应用等方面具有重要的意义。其中,本体的构建与扩展是本体研究的核心和
课程编排对每个大学的管理部门来说都是每个学期不得不面对的一个挑战。大学课程编排问题是一个NP完全问题。对大多数大学教育机构来说,课程编排是最普通最难的问题之一。课程
网页和纯文本的结构差异性决定了传统的信息检索排序算法不能完全适应网络发展,基于链接分析的网页排序算法便应运而生,并成为现代搜索引擎的关键技术。知名的搜索引擎公司在对
本文从研究和设计的角度出发,对微博检索系统的相关理论与技术对比分析,提出改进,主要的改进工作为:第一,从伪相关反馈扩展角度出发,每个反馈的文档依据查询事件的爆发时间分布具
生物特征识别的几个重要步骤是:预处理、特征抽取、分类。而特征抽取在生物特征识别的过程中占有重要的地位。投影分析方法是常见的一类特征抽取方法。常见的投影分析方法有很