中文词典中词汇属性知识的获取

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:lzt870702
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词汇知识库是自然语言处理系统不可或缺的组成部分,语言知识库的规模和质量在很大程度上决定了自然语言处理系统的成败。这已经成为自然语言处理研究人员和系统开发者的共识。目前语义关系库的建立,主要还是采用手工的方法,工作量很大。我们相信,词汇间关系必然有着其内在的规律,完全有借助程序高效自动辅助抽取的可能。如果能够引入计算机辅助提取工作,那么建立这样词汇知识体系的效率将大大提高。本文研究利用机器可读词典作为资源,使用基于bootstrapping的信息抽取框架为技术手段,对词典中词汇的属性知识进行获取。本文的贡献主要如下:首先,提出了一套基于bootstrapping框架的词汇属性知识获取的完整流程。整个流程的关键部分是模板-元组的迭代获取。其次,对知识获取流程中的各个环节进行研究,并提出或应用了相应的方案。在初始模板的生成中,研究并使用了正规表达式来描述模板,并提出了在词典释义项中获取词汇知识模板的方法。在模板的合并过程中,采用多序列比对技术,对模板的抽取能力进行增强。并在模板的泛化阶段采用同义词替换、词汇语义相似度计算来扩充模板的覆盖率。在词汇知识的提取阶段,采用模板匹配的方法,实现词汇知识的自动抽取。最后,实现了一个词汇属性知识的抽取系统,并针对手工以及baseline系统进行了比对实验,以验证本文所提方法的有效性。本文的研究朝着抽取词汇的较完备的内涵特征和关系的目标更进了一步。如果我们通过词典建立了较完备的词汇属性知识,那么我们就可以对很多中文自然语言处理应用打下一个良好的基础。
其他文献
数据挖掘作为当前的热门研究领域,已广泛应用于科学研究和商业预测等领域,拟从大量的数据中提取潜在的、人们感兴趣的、有用的信息。数据分类是数据挖掘的一个重要分支,按照
伴随着计算机系统的飞速发展,软件在系统中发挥的作用日益关键。因软件可靠性问题造成的事故和灾难已屡见不鲜。与此同时,在高性能计算领域,高性能计算应用软件无法跟上高性能计
随着技术的不断提高,对性能的要求也不断上升,随之而来的是多核处理器系统的兴起。多核处理器一般分为对称式系统(同构多核系统)和主从式系统(异构多核系统),且由一开始的同构系
随着Internet的发展,Web系统凭借其开发、维护、费用等多方面的优势迅速发展起来,已经成为软件的发展趋势。在与软件体系结构,特别是动态软件体系结构的结合中,形成了一种可以不
当前,地理信息系统(GIS)无论在理论研究上还是在开发应用上都处于一个飞速发展的阶段,被广泛地应用于资源管理、环境监测、交通运输、城市规划等经济建设的各个领域。从图像
多信道无线数据广播是一种向大量用户传播数据的有效方法。这篇论文展示了无线数据广播系统基于字母序哈弗曼树(AH-Tree)索引机制的全局优化方案,这种优化方案能够有效地处理分
随着数字技术的进步,多媒体产业迅速发展,各种音频、视频等多媒体作品层出不穷。网络的普及使得这些作品的复制和传播变得十分的方便。然而技术在给人们带来便捷的同时也使得盗
CAD产品模型是厂家和设计者智慧和心血的结晶,它包含着有价值的知识产权,有着很大的经济价值。协同环境下产品模型的安全访问机制对于保护产品模型的可用性、完整性、机密性
随着网络带宽的增加、安全需要的增长和网络业务的不断发展,报文分类技术在网络设备和网络应用的作用逐渐凸显,应用日趋广泛。作为报文分类技术的核心,报文分类算法的本质是计算
体数据的拓扑分析和可视化是体数据的两个重要研究方向。近年来的研究将两者结合,利用数据的拓扑特征增强体绘制取得了非常好的效果。但传统的拓扑分析方法均是基于离散框架,