结合从句识别和半监督集成学习的远程监督关系抽取

来源 :浙江大学 | 被引量 : 0次 | 上传用户:caibh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关系抽取是信息抽取领域的重要环节。基于远程监督的关系抽取(Distant Supervision based Relation Extaction,DSRE)是当前的研究热点,其通过远程监督获得大量训练数据,有效的解决了传统监督学习训练数据不足的问题。远程监督假设:如果一个句子包含知识库中的两个实体,那么这个句子就表达了这两个实体在知识库中对应的关系。基于假设可以得到大量标注数据作为训练数据,然而由于假设并不总是正确的,导致生成的训练数据中存在大量的错误标注数据,会对实验结果造成不良影响。此外,通过远程监督生成的负例数据的数量远高于正例数据,研究者为了保持训练数据的平衡性,一般选取正例数据和部分负例数据作为训练数据,导致负例数据没有得到充分利用,存在较大的提升空间。针对DSRE中训练数据存在大量标注错误的问题,本文提出一种基于从句识别的去噪算法(Noise Reduction by Clause Identification,NRCI)。NRCI 算法首先使用从句识别算法将句子划分成从句,然后根据是否存在满足远程监督假设的从句来判断原句的标注是否正确。实验表明NRCI算法可以有效的降低训练数据中的错误标注数据,进而显著的提升远程监督关系抽取的准确率。针对DSRE方法中负例数据没有得到充分利用的问题,本文提出一种改进的半监督集成学习算法ETT(Extended Tri-Training)。ETT将DSRE方法中使用的训练数据作为标注数据,未使用的负例数据作为未标注数据,从而可以利用更加丰富的特征来获得更好的分类边界,取得了更高的分类准确率。
其他文献
随着互联网和计算机技术的高速发展,Web服务技术也得到了快速的发展和应用,这使得Web服务的数量与日俱增,提供的功能也越来越丰富。然而单个原子服务提供的功能毕竟有限,而用
人脸检测是指在任何人脸识别系统中从输入信息(图像)中确定所有存在的人脸的位置、大小和姿态的过程,它是自动人脸识别系统中的一个关键环节。随着计算机科学在人机交互领域的
推荐系统已经成为大数据时代最重要的信息过滤工具之一,它可以帮助用户从海量数据中迅速定位有价值的信息,并以用户可能感兴趣的物品列表的方式推荐给用户。互联网爆炸式的信
火灾自动无线报警系统在现代社会安全领域的建设方面起着非常重要的作用,随着无线物联网技术的进一步发展。火灾预防将是无线物联网技术的一个重要的应用方面。传感器的应用
微电子技术和计算机技术的迅猛发展促使人们对无线通信提出了更高的业务要求。为了满足可视电话、手机电视、高速数据、高精度定位等高速多媒体业务的要求,未来无线通信系统
随着互联网技术的发展和人们对于电子支付需求的不断增加,移动支付受到越来越多的关注。因其不受空间限制、方便快捷、随时随地开展交易等诸多优点,移动支付发展迅猛并且正在
随着计算机网络技术、多媒体技术及视频检索技术的飞速发展,多媒体信息数据在社会生活中的应用也变得越来越广泛,尤其是视频信息数据的处理。重大危险源的监控视频信息的完整性
随着互联网技术的飞速发展,在网络上制作、拷贝、传播和发布多媒体数字作品变得更加的容易,信息隐藏技术为日益严峻的多媒体信息安全和知识产权保护提供了一个十分有效且非常
为了将互联网中纷繁复杂的信息快捷准确地呈现在用户面前,各种信息获取系统大量出现。信息获取是从网页中获得知识的手段,通常包括信息网页获取,信息抽取,信息去重等步骤。信
空间数据是指那些带有地理位置信息的数据。在当前的大数据时代,空间数据占了很大的比例,并且在处理时具有自身的特点。与此同时,时间维度的数据分析,特别是时间序列预测,已经成为