基于预训练语言模型集成的谣言检测方法研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:hero616
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随网络的进步与普及,社交媒体已成为越来越多人获取信息的平台。虽然人们可以从社交媒体中便利中受益,但它也带来了一些问题,其中最为显著的是谣言泛滥问题。谣言给人们的生活带来了许多负面影响,虽然当前有人工谣言检测平台,但人工检测难以及时应对庞大的网络数据。因此自动谣言检测受到越来越多的关注,自动谣言检测研究变得至关重要。虽然已有不少工作做出了杰出贡献,特别是以神经网络为基础的集成学习方法取得了优异表现,但当前提出的集成方法没有考虑将预训练语言模型作为强基础学习器,充分发挥集成学习的效果。为了达到更佳的检测性能以及推动谣言检测的发展,本文主要工作如下:(1)提出一种将预训练语言模型BERT和Stacking集成算法高效结合的谣言检测模型STANER(Stacking ne Twork b Ased o N BERT)。(2)提出多维度抽样策略,为各初级学习器以不同条件抽取评论作为补充。该策略既能提升单模型的性能,又能提升初级学习器之间的多样性,从而提升集成效果。(3)提出基于BERT编码和密度聚类DBSCAN的去冗策略,能够有效解决抽样产生的评论数据冗余问题,有效提升模型的表现。(4)收集了一个最新的中文谣言检测数据集Weibo20。中文谣言检测数据集极少,为了缓解该问题,本文基于新浪微博收集了一个最新的谣言检测数据集。(5)与现有主流谣言检测模型(包括SOTA模型)对比,STANER在四个真实数据集上取得了最优的效果。除此,本文还完成了一系列消融与分析实验,对STANER模型和谣言检测任务进行探究。
其他文献
室内气体定量分析在仿生嗅觉中是一个热点应用领域,对于人们健康有着非常重要的意义。如果能够有效地提取在不同干扰情况下的混合气体的特征,这对于实际环境中的应用具有重要的作用。传统的室内气体分析主要是理化鉴别法,存在着技术门槛高,实时性差的缺点。本文的目的是探索使用深度学习对混合气体进行定量分析的方法,对比目前仿生嗅觉已有的模式识别算法,研究对象为电子鼻采集的室内有毒有害的甲醛混合气体数据,综合考虑了不
去雾一直是提高图像质量领域的重要研究方向之一,遥感图像去雾更是对后续遥感图像处理有着举足轻重的作用。获取遥感图像的硬件限制以及成本限制更是对提高遥感图像质量有更高的要求。遥感图像中雾气浓度不均匀、地物信息复杂以及数据集稀少的问题使得目前主流的适用于自然图像去雾的方法并不适用于遥感图像去雾,并且遥感图像中雾气浓度过浓容易造成遮挡问题,导致提高图像质量后该部分的信息依然模糊。因此针对以上问题,本文所做
重载叉车是一类非常重要的港口起重设备。它利用伸缩臂实现大范围叉装货物的功能。随着对伸缩臂可覆盖范围和叉装货物载重等需求的提升,对伸缩臂的强度和疲劳寿命也有更高的要求。车架是重载叉车的主要承重部件,其强度和疲劳耐久性也是设计中必须考虑的因素。伸缩臂是双向压弯构件,其载荷形式主要是臂节之间的接触载荷。车架与其他部件的连接都是铰接形式。依据伸缩臂和车架的不同载荷种类,应用不同的方法建立动力学模型以及计算
随着我国高速铁路技术迅速地发展,我国现已全面掌握高速铁路关键核心技术,与此同时针对动车组列车的相关配套检修技术也在不断的升级、完善。目前我国的动车检修已经逐步从人检人修朝着机检人修的过程发展。轨道列车一级检修作为目前我国完整的一套检修服务体系中检修周期短、检修频次多的一项检修任务。它直接影响到动车组列车在运行中的安全与效率。同时又由于车轴是列车运行过程中重要的支撑荷载零件,所以在进行智能检修过程中
离散事件系统是一类由离散状态、事件转移构成的系统,其专注于系统的序列化行为以及逻辑性。而故障诊断一直以来都是离散事件系统的热门研究方向。早在90年代Lin就提出了一种基于状态的离散事件系统在线诊断和离线诊断,接着Sampath提出可诊断性形式化定义后,故障诊断这一领域研究备受国内外专家学者关注。并从经典离散事件系统推广到模糊离散事件系统、随机离散事件系统、分布式离散事件系统、赋时离散事件系统等多种
图数据是一种由顶点和边构成的抽象的数据结构。随着信息科学技术时代的发展,研究人员发现图数据有强大的表示能力,可以对许多不同的领域里拥有复杂结构的数据进行建模,例如,生物信息学中的DNA、蛋白质,化学信息学中的化合物,计算机科学中的社交网络、知识图谱。如何对图数据进行分类成为研究的热点。在部分实际应用中,我们只能标记一部分图数据为正类,其他实例都未能作标记,这被叫做正类和无标记的(PU)图数据分类问
高光谱图像包含丰富的光谱信息和空间信息,它可以更细腻地描述地物特征,因此被广泛应用于农业,环境检测,军事,地质等领域。然而,根据这几年研究表明,高光谱图像分类算法的研究还是有很多挑战,如高光谱的每个像素点的数据结构非常复杂,数据维度非常大,在有限的样本情况下实现高精度的分类和时间耗费较少是非常困难的;高光谱图像信息比较丰富,未能充分利用高光谱图像的不同空间信息;提取的图像特征未能进行很好的融合;高
分布式能源技术的不断发展,使可再生能源将以更加分散的形式出现于各个住宅中,比如可再生能源的产生和存储(如光伏屋顶),因此基于家庭的电能系统将成为未来电力系统的重要组成部分。家庭内部的电能系统也越来越被重视,它的研究有利于家庭能源的合理使用,既能满足外部电力系统稳定运行的需求,又能减少家庭用户的电费支出。家庭能源管理系统中的关键便是对家庭负荷的精准预测,为了更准确的对家庭电能负荷进行调度,单个用户级
中医的智能化主要通过硬件设备代替医生对病人进行“望闻问切”,从而得到诊断结果。但硬件识别与人眼识别存在差异,导致采集的数据会受到各种因素的影响。如何对采集到的数据进行优化,减少因各种原因造成的差异,是当前中医智能化所要解决的重要问题。为此,针对开放环境下的望诊图像采集过程中各类问题,本文创新地提出了一种望诊图像采集和处理方法及服务系统,旨在为训练集提供标准化的数据。论文的主要研究内容和创新点如下:
阻塞性睡眠呼吸暂停综合征(Obstructive Sleep Apnea Syndrome,OSAS)是一种流行的且与睡眠有关的呼吸系统疾病。它的主要表现为睡眠期间上呼吸道重复地发生部分或完全阻塞。在本研究中,我们使用OSAS患者清醒时的语音信号,来检测OSAS的严重程度。当前,基于语音的OSAS检测方法使用传统语音特征。传统特征集一般使用梅尔频率倒谱系数(MFCC)、共振峰、能量、线性预测编码(