论文部分内容阅读
由于微博、微信和门户网站等均是公开传播媒介,所以极易导致新闻内容被抄袭、篡改或非法扩散,继而给新闻内容原创者造成经济损失。文本相似度检测是用来解决新闻内容侵权问题的关键技术之一。然而,传统的文本相似度检测算法在处理海量新闻文本时难以进行高效的相似度检测。除此之外,传统方法一般是利用字符或词频来提取特征以实现文本相似度对比,难以解决因缺乏语义信息导致准确率不高的问题。为此,本文对新闻文本侵权检测方法进行研究,提出一种基于语义指纹的相似新闻文本筛选方法SF-SNTSM(Similar News Text Screening Method Based on Semantic Fingerprint)和基于BERT模型和交互推理网络的新闻文本相似度检测算法BERT-IIN-TSDA(Text Similarity Detection Algorithm Based on BERT and Interactive Inference Network),在此基础上设计了新闻版权保护原型系统,以帮助用户实现高效准确的侵权检测。本文主要工作包括以下几个方面:(1)针对海量新闻文本的检测效率问题,本文提出一种基于语义指纹的相似新闻文本筛选方法SF-SNTSM,并提出一种基于Word2vec和Simhash的新闻文本指纹生成算法WS-TFGA(Text Fingerprint Generation Algorithm Based on Word2vec and Simhash)。SF-SNTSM方法首先利用WS-TFGA算法生成新闻文本的语义数字指纹,然后根据该数字指纹在版权库中进行分段检索,快速检索出相似文本集,最后利用辅助过滤机制,判断文本集是否需要进一步深度侵权检测。与基于传统的Simhash等局部敏感哈希的检测方法相比,SF-SNTSM在保持检测速率的同时能够有效提升精确率和召回率。(2)针对传统检测方法缺失语义信息而导致检测准确率低的问题,本文提出基于BERT模型和交互推理网络的新闻文本相似度检测算法BERT-IIN-TSDA。BERT-IIN-TSDA是SF-SNTSM的后续检测步骤,主要包括生成文本表示矩阵模块和文本侵权判定模块。首先,通过预训练的BERT语言模型生成待检测新闻文本和源新闻文本的表示矩阵。接着,利用自注意力编码层提取文本内部的关联信息,然后,利用信息交互层实现待检测文本和源新闻文本之间语句级别的关系匹配,得到文本交互矩阵,并采用深度网络Dense Net提取文本交互矩阵的深层语义信息,最后通过分类判别模块实现新闻文本侵权判定。实验证明,该算法能够进一步提高文本相似度检测的准确率。(3)基于上述方法,本文研发了新闻版权保护原型系统,并采用统一内容标签UCL(Uniform Content Label)对新闻数字版权进行统一标注和管理。利用爬取的真实新闻内容自建新闻抄袭数据集,并利用该数据集对本文提出的SF-SNTSM方法和BERT-IIN-TSDA算法进行性能验证。实验结果表明,与基于传统的局部敏感哈希方法相比,SF-SNTSM具有更好的海明距离量化能力和更高的精确率和召回率;与传统的相似度检测方法相比,BERT-IIN-TSDA算法具有更高的准确率。