基于多知识源的词义消歧知识库构建

被引量 : 2次 | 上传用户:assembly2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词义消歧是自然语言处理任务的重要环节,影响计算机对文本语义的理解。从规则到概率模型,从表面的搭配到语义层面的理解,词义消歧方法不断深入语言的本质,越来越符合人类的认知模型。词义消歧的知识也可以从机读词典、义类词典、语料库等知识源中通过不同的方法获取。因此,有必要将这些可用于词义消歧的知识提取出来,构建不同的知识库,将这些知识融合,便于用来进行词义消歧。本文使用《现代汉语语法词典》、《现代汉语语义词典》、《人民日报》语料库、HowNet等知识源,参考已有的消歧方法,进行创新或改进,从现有的自然语言处理知识源中提取可用于词义消歧的知识,构建三个知识库:条件随机场模型库、情景词库和区别性词典属性库,并使用这些知识进行消歧实验,具体工作包括以下几个方面:1.使用《人民日报》语料库设计了标点句库,将包含多义词不同义项的标点句分文件存放,为之后构建条件随机场模型、构建规则和进行消歧实验奠定基础。2.创建了条件随机场模型库,将条件随机场训练的模型文件作为消歧知识存储。文中使用条件随机场分别对整个文本、多义词高频义项语料、多义词低频义项语料训练模型文件并用于测试,发现使用低频义项句库训练的模型文件消歧效果更好,并能够找到一个阈值,便于判别标注结果的正误。3.构建了情景词库,从标点句库中分别提取共现词、搭配词、指示词三类词义消歧特征,其中运用了词袋、依存句法树以及种子优选法。我们还使用这三类词进行了封闭测试,得到三类词对消歧的影响因子,并设计了顺序消歧和综合消歧两种开放测试。4.设计了区别性词典属性库,对《现代汉语语法词典》和《现代汉语语义词典》中的多义词字段进行分析并融合,分为共有词库和独有词库,并从中提取肯定性区别特征。此外,还使用其中的示例字段,与HowNet、标点句库、语料库在线相结合,制定稀疏多义词或者多义词稀疏义项的模板。5.针对以上三种知识库分别设计了知识库构建程序和消歧实验程序,并通过实验评估知识库中存储的消歧知识的消歧效果。综上所述,本文分析了从不同知识源中提取的消歧知识,并对这些知识进行了初步的融合,力图构建一个面向词义消歧的知识库体系,便于今后词义消歧工作的进一步研究与开展。
其他文献
再审稿是学术期刊刊稿质量的重要组成部分,在期刊整体质量提高中同样发挥着一定的作用。学术期刊编辑应全面兼顾期刊内在质量和作者群的建立和培养,慎重对待再审稿,重视再审
【目的】探索数据期刊良好实践的实施细节,对其政策要素框架进行分析,以期为我国数据期刊的发展提供参考。【方法】根据实用主义方法论,以文献综述的方式进行分析,以合理竞替
目的分析临沂市已婚育龄夫妇不孕症病因总体构成情况并排列病因顺位,指导不孕症病因诊断和疾病预防。方法研究2013年1月~2014年7月在临沂市妇幼保健院生殖医学中心就诊的不孕
<正> 《青年团的任务》是列宁一九二○年十月二日在俄国共产主义青年团第三次全国代表大全上的演说。在这篇演讲中,列宁根据无产阶级革命的新经验,对共产主义道德教育的基本
1757年,清政府开始实行一口通商的贸易紧缩政策,在征服孟加拉的英属东印度公司时却发现喜马拉雅地区长久以来就存在进入中国腹地的商路。当东印度公司明确西藏是中国不可分割
四川省千佛寨森林公园位于安岳县城西北五华里的大云山上,是一个融自然景观与文化景观为一体的省级森林公园。园中森林茂密、藤萝挂壁。其摩崖石刻造像可从隋朝开皇年间一直追
<正> 去年开始,英国的“立顿”红茶大举“入侵”杭州茶叶市场。目前,杭州的一些宾馆、饭店、歌舞厅,端在客人手上最多的是“立顿”红茶。这是一种速溶茶,一冲即饮,十分方便,
目的:探究术前血小板/淋巴细胞比值(PLR)、中性粒细胞/淋巴细胞比值(NLR)对甲状腺乳头状癌无复发生存的预测价值。方法:回顾性分析1999年1月至1999年12月间在我院头颈外科经手术
[目的]优化绿茶中茶多酚的提取工艺并测定其含量。[方法]以浙江绿茶为原料,对超声波辅助法提取茶多酚的条件进行了研究,采用高效液相色谱法测定最佳条件下茶多酚含量并与酒石