新闻文本侵权检测关键技术研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:huai0407
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于微博、微信和门户网站等均是公开传播媒介,所以极易导致新闻内容被抄袭、篡改或非法扩散,继而给新闻内容原创者造成经济损失。文本相似度检测是用来解决新闻内容侵权问题的关键技术之一。然而,传统的文本相似度检测算法在处理海量新闻文本时难以进行高效的相似度检测。除此之外,传统方法一般是利用字符或词频来提取特征以实现文本相似度对比,难以解决因缺乏语义信息导致准确率不高的问题。为此,本文对新闻文本侵权检测方法进行研究,提出一种基于语义指纹的相似新闻文本筛选方法SF-SNTSM(Similar News Text Screening Method Based on Semantic Fingerprint)和基于BERT模型和交互推理网络的新闻文本相似度检测算法BERT-IIN-TSDA(Text Similarity Detection Algorithm Based on BERT and Interactive Inference Network),在此基础上设计了新闻版权保护原型系统,以帮助用户实现高效准确的侵权检测。本文主要工作包括以下几个方面:(1)针对海量新闻文本的检测效率问题,本文提出一种基于语义指纹的相似新闻文本筛选方法SF-SNTSM,并提出一种基于Word2vec和Simhash的新闻文本指纹生成算法WS-TFGA(Text Fingerprint Generation Algorithm Based on Word2vec and Simhash)。SF-SNTSM方法首先利用WS-TFGA算法生成新闻文本的语义数字指纹,然后根据该数字指纹在版权库中进行分段检索,快速检索出相似文本集,最后利用辅助过滤机制,判断文本集是否需要进一步深度侵权检测。与基于传统的Simhash等局部敏感哈希的检测方法相比,SF-SNTSM在保持检测速率的同时能够有效提升精确率和召回率。(2)针对传统检测方法缺失语义信息而导致检测准确率低的问题,本文提出基于BERT模型和交互推理网络的新闻文本相似度检测算法BERT-IIN-TSDA。BERT-IIN-TSDA是SF-SNTSM的后续检测步骤,主要包括生成文本表示矩阵模块和文本侵权判定模块。首先,通过预训练的BERT语言模型生成待检测新闻文本和源新闻文本的表示矩阵。接着,利用自注意力编码层提取文本内部的关联信息,然后,利用信息交互层实现待检测文本和源新闻文本之间语句级别的关系匹配,得到文本交互矩阵,并采用深度网络Dense Net提取文本交互矩阵的深层语义信息,最后通过分类判别模块实现新闻文本侵权判定。实验证明,该算法能够进一步提高文本相似度检测的准确率。(3)基于上述方法,本文研发了新闻版权保护原型系统,并采用统一内容标签UCL(Uniform Content Label)对新闻数字版权进行统一标注和管理。利用爬取的真实新闻内容自建新闻抄袭数据集,并利用该数据集对本文提出的SF-SNTSM方法和BERT-IIN-TSDA算法进行性能验证。实验结果表明,与基于传统的局部敏感哈希方法相比,SF-SNTSM具有更好的海明距离量化能力和更高的精确率和召回率;与传统的相似度检测方法相比,BERT-IIN-TSDA算法具有更高的准确率。
其他文献
目的:检测自噬相关蛋白及其调控通路Akt/mTOR在口腔扁平苔藓(oral lichen planus,OLP)局部组织及T细胞中的表达,探讨其在OLP局部发病机制中的潜在作用。方法:分别运用免疫组
体育场外部空间作为室外公共空间的一种,其作为体育场与城市衔接的过渡空间,一方面可作为承担体育场赛事的补充,另一方面具有市民室外休闲、娱乐、运动、交往等潜能。但现实
在以大数据,人工智能等为代表的高新技术快速发展的当今社会,信息安全已越来越受到人们的重视。其中密码学对数据的保护起到了举足轻重的作用,而信息技术也对密码学的发展和
朱利安·巴恩斯是当今英国文坛最重要的作家之一。由于其作品中的历史主题与自我身份追寻主题,巴恩斯被冠以后现代作家的头衔。他的新作《时间的噪音》聚焦俄国作曲家德米特
研究目的:利用高分辨率显微CT技术研究中国人恒牙根尖Delta发生率及其形态特征。材料和方法:从本课题组前期构建的牙及根管系统形态数据库中随机抽取根尖发育完全的1400颗离
论文综述了脂肪酸废水以及相似废水的处理方法和技术。因为废水具有高酸度、高COD、高盐以及高色度的性质,对环境危害很大,处理也很困难。如何使脂肪酸废水资源化是该领域急
随着社交网络在全球化环境中的日益普及,随时随地共享数据和信息的过程变得更加容易和快捷,云计算和云存储服务已成为主流。不幸的是,云存储上的敏感数据信息,很容易受到攻击
啶氧菌酯(Picoxystrobin)是一种人工合成的甲氧基丙烯酸酯类杀菌剂,具有高效广谱和适用范围广等特点。随着啶氧菌酯使用范围的扩大和使用量的增长,生态环境中啶氧菌酯的残留
光催化是环境污染治理的一个重要的手段之一,传统的光催化材料一般使用TiO2纳米颗粒对水体进行催化降解。但随着对TiO2光催化材料的研究越来越多,TiO2光催化材料的缺点也逐渐
随着我国市场经济实力的不断提升,人们对海域的开发利用需求日益增强,海域使用权进入市场流转已经成为必然现象,我国现行法律对海域使用权抵押的直接规定较少,无论是立法角度