基于鲁棒主成分分析的远监督关系抽取

来源 :吉林大学 | 被引量 : 0次 | 上传用户:fanjin001983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的迅猛发展,随之而来的是爆发式增长的大数据问题。信息抽取是从大量非结构化的文本中抽取出有价值的结构化信息,而关系抽取作为其中最重要的子任务,主要用于抽取文本中实体之间的语义关系。关系抽取分为无监督关系抽取、半监督关系抽取、远监督关系抽取和全监督关系抽取四种,其中最有前景的是远监督关系抽取,通过启发式地对齐已知的知识库和非结构化文本集提供训练数据,既不用像全监督关系抽取那样需要大量人工标记数据,也不会像半监督关系抽取那样产生语义漂移问题,并且在准确率和召回率上远监督关系抽取也比无监督关系抽取的表现好。但是,使用远监督学习模型实现关系抽取存在如下问题:(1)噪音问题。远监督关系抽取中使用启发式对齐规则提供训练数据是基于假设:如果一个实体对有某种语义关系,则所有包含这个实体对的语句都表达了这种关系。然而该假设条件在某些情况下不总是成立。例如,某些语句并没有表达实体之间的任何语义关系,却被错误的认为是描述特定关系的语句,从而产生噪音关系标签。(2)特征稀疏问题。由于无法预先得知哪些特征对远监督关系抽取的影响更大,所以在进行特征提取时会得到多种文本特征,包括词法特征、语法特征等,但是在训练集中这些特征中的很大一部分只出现了一次。例如,对Freebase知识库和NYT’13文本集进行数据对齐后进行特征提取,会得到几千个特征,而每个实体对对应的这些特征中只有少数特征值为1,其余为0。针对上述远监督关系抽取存在的问题,本文的工作主要有以下几个方面:(1)将远监督关系抽取问题转化成低秩矩阵恢复问题,并选择鲁棒主成分分析模型实现远监督关系抽取。首先把数据整理成矩阵的形式,把待抽取的关系实例作为未知元素存储在矩阵的测试集中,为了解决特征稀疏问题,本文假设矩阵具有低秩性。然后将通过远监督学习所得的原始矩阵分为包含主要信息的低秩矩阵和具有稀疏特征的噪音矩阵。最后利用矩阵奇异值分解找出数据之间的相关性,并实现对未知元素的预测,即抽取出新的关系实例。(2)提出使用加权核范数的鲁棒主成分分析模型。传统的使用核范数的鲁棒主成分分析模型在求解时使用相同的阈值对奇异值矩阵进行收缩,忽略了奇异值的大小与所包含信息的重要性成正比的关系,影响了去噪效果。本文提出在鲁棒主成分分析模型中使用加权核范数替代核范数,即在求解过程中使用与奇异值成反比的阈值对奇异值矩阵进行收缩,从而减缓大奇异值的收缩速度,加快小奇异值的收缩速度,这样不仅保证了矩阵低秩性,还尽量保留了矩阵的重要信息。实验结果表明,基于加权核范数的鲁棒主成分分析模型提高了远监督关系抽取的准确率和去噪效果。
其他文献
本文介绍了现代物理农业概念,探讨了现代物理农业技术与设备在防治温室植物病虫害方面的应用,并对"现代物理农业"成果纳入相关专业课程内容、建设实践场所、培训师资等方面进
<正>两会期间有一则报道引起关注:北京大学女硕士苏黎杰毕业后在京城就业连连碰壁,最后作出一个"雷人"决定:回河南老家和农民工一道学习油漆技术。这件事似乎为两会前一则网
创新驱动战略的实施先要基于对区域创新现状的深入了解。自2006年山东省大力开展创新型省份建设以来,科技创新工作取得了一定进展。为更好地了解山东创新现状,为决策提供支撑
目的探讨不同疾病中血栓弹力图与凝血4项对凝血功能的一致性研究。方法选取2016年1月—2017年6月泰州市人民医院进行治疗的糖尿病、脑出血、肝硬化、骨折、宫颈癌患者283例,
中小制造企业是浙江经济发展的生力军,在国际金融危机影响下已陷入融资困境。为探寻机制性解决融资方案,通过选取部分企业进行调查研究,揭示了浙江中小制造企业融资困难的表
<正>食品安全关系国计民生,而"三鹿事件""双汇事件"等食品安全问题屡屡发生,让人触目惊心。怎样引导初中学生从化学角度了解食品安全呢?笔者带领学生开展了一次主题探究活动
<正>随着Internet技术得到持续快速的发展,网络应用也随之逐渐扩大,人们的日常生活更加离不开网络,从BBS到微博,从新闻站点到网购,人们不再满足于简单地从网络上获取信息,由
构建可持续发展的企业绩效评价指标的目的在于按照生态建设要求实现企业经济利益、环境与社会全面协调持续发展。通过对传统企业绩效评价体系的分析与评价,提出可持续发展的
在强制执行程序中关于预告登记的规定始终存在一个争议问题,即经预告登记后的不动产是不是存在限制或是对抗法院强制执行的效力,在理论方面及实务方面均没有相应的定论。因此