面向层次发类标签的词性标注系统

来源 :复旦大学 | 被引量 : 0次 | 上传用户:qy19871120wr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为自然语言处理的基本操作,词性标注能提供关于单词及其邻近成分的大量有用信息,因此常常是组成复杂应用的模块之一。词性标注任务是文本理解、文本生成等自然语言处理领域的重要基础,经过多年的发展,被认为是相对成熟的一个领域。然而,随着互联网的发展和信息的日益增多,出现了大量的不规则的短语文本,如层次分类标签。另一方面,目前的词性标注工具均建立在常规长句的基础上,在短语文本上的性能并不理想。正是在这种前提下,本文深入研究了面向层次分类标签的词性标注算法。   本文介绍了词性标注的核心技术和研究方法,包括四种经典的词性标注模型和算法。通过手工标注,我们成功分析出层次分类标签同长句文本之间的六个主要差异,找到了传统的词性标注工具性能不佳的根本原因,并指出了两个有待解决的关键问题:路径信息和专有名词。   在此基础上,本文提出了基于最大熵模型的词性标注算法。为了把路径信息集成到输入中,我们引入了一个新的标记PATH,同时还添加了三类利用该路径信息的特征。针对层次分类标签中大量的专有名词,我们从WordNet和Wikipedia出发,分别构造出一个词典和一个数据库,然后以二值特征的形式引入到最大熵模型中去。在分类目录Dmoz上,这些改进取得了非常显著的性能提升,从而表明了该方法的有效性。   层次分类标签上的词性标注可以应用到自动网页分类系统中。当前的网页分类系统过于依赖于人工标注的网页以作为训练语料。我们设计出这样一个系统,在没有语料的条件下,巧妙地利用分类标签的词性标注信息和搜索引擎,自动构造出一批训练语料。实验结果表明,该方法的性能是完全可以接受的。
其他文献
手写签名鉴别是一种新兴的基于生物特征的身份识别技术,与传统的身份识别方式相比,手写签名识别可以提供一种更为安全、可靠、便捷的身份识别新途径。一个完整的离线签名鉴别
无线射频识别(RFID)技术是一种对象自动识别技术,在供应链管理,访问控制,动物追踪等领域中已经得到广泛的应用。和其它的RFID技术的重要应用相比,供应链管理由于批量处理大量
ZigBee技术是一种新兴的短距离、低速率无线网络技术,主要用于近距离无线连接。ZigBee技术与其他几种无线通讯技术相比,突出特点是:功耗低、组网能力强、传输距离远、可靠性
随着计算机和网络技术的发展,电子文件的安全问题日益突出。根据传统的信息安全观点,约80%信息泄漏来自内部,为了解决内部人员的泄密问题,必须依托电子文件保密技术完善电子
LOD(Level–of–detail)模型表示法是一种有效的三维实体表达方式。其在计算机图形学、虚拟现实、地理信息系统、医学图像系统等领域有广泛的应用。现今在这些领域所构造和使
灰色系统理论以“部分信息已知,部分信息未知”的“小样本”、“贫信息”不确定性系统为研究对象,主要通过对“部分”己知信息的生成和开发提取有价值的信息,实现对系统运行
主题发现与跟踪(TDT)一直是国内外网络信息处理研究的一个热点,具有广泛的应用前景。本课题的研究目标是通过博客实时发现并跟踪国内外热点事件,以实时地反馈给用户。由于传
入侵检测技术能够同时检测来自系统外部和内部的攻击,并对检测到的入侵行为作出响应。随着网络技术的发展和网络带宽的迅速增长,入侵检测系统的处理速度由于无法与高速网络带
随着各种医学影像设备的大量涌现,医学图像成为现代临床诊断和医学研究中不可或缺的工具。面对这些海量的医学图像数据,如何有效地组织、管理和检索大规模的医学图像数据,已
随着互联网规模逐渐扩大,域间路由安全问题日益加剧。近年来国内外已经发生多起路由安全事件,对整个互联网也造成很大影响。BGP作为互联网的核心路由协议,其本身却缺乏有效的