基于多特征融合的垃圾评论识别方法研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:yh820927
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0时代的到来,互联网技术的不断发展,通过线上购物进行消费的行为逐渐成为一种社会潮流。各大电商平台涌现大量的评论信息,这些评论信息为其他消费者提供了重要的参考价值,逐渐成为消费者的购买决策的主要依据。然而某些不法商家发现“商机”,会雇佣用户虚构消费过程发布垃圾评论,对商品进行不真实的描述,误导消费者做出错误购买决定,严重影响了电子商务市场的健康发展,破坏了其原有的竞争规则。由于垃圾评论有很强的迷惑性,通过人工识别的方式对海量的商品评论进行鉴别是不现实的,因此如何有效地对垃圾评论进行检测识别成为电子市场发展过程中亟需解决的问题之一。本文综合考虑了传统机器学习和深度学习方法的优势,对垃圾评论进行检测识别。本文主要进行了以下两方面的工作:(1)提出了一种融合卷积神经网络(Convolutional Neural Network,CNN)、门控循环单元网络(Gate Recurrent Unit,GRU)的注意力机制垃圾评论检测识别模型。为了有效地对垃圾评论进行识别,利用深度学习算法在文本特征学习上的优势,文本首先设计了混合CNN与GRU网络的注意力机制模型。本模型包括三个组成部分,分别为词组级特征学习的CNN网络层、句子级特征学习的GRU网络层,利用注意力机制在GRU网络层进行特征整合,可以从语义层面对评论语义进行解析,识别出其中的垃圾评论。为验证本模型的有效性,在Yelp公开数据集上进行测试并分析了不同模型设置下的识别效果。实验结果表明,本模型可以有效的对垃圾评论进行检测识别。(2)构建了基于多特征融合的垃圾评论检测识别模型。首先对数据集进行统计分析,提取了词汇特征、N-gram特征、心理学特征以及用户行为特征四种特征指标。然后利用CNN对提取的特征指标进行处理,获得离散特征向量。其次使用CNN学习词向量的句子表示,使用双向GRU和注意力机制对句子表示向量进行编码、加权处理,从而提取出评论文本深度语义特征。最后将离散特征与语义特征相结合,进行垃圾评论的识别检测。实验证明,本模型能更有效地对垃圾评论进行检测识别,为消费者提供更加准确的指导信息。
其他文献
近年来,随着我国高等教育的迅猛发展,大学毕业生也日益增多。尽管就业岗位的数量在不断增加,但我国劳动力市场的供需失配的结构性问题依然非常严重。如今,随着互联网的普及,网络招聘成为企业招聘人才的主流方式。招聘信息中列出的技能词为实时、准确地了解企业对人才的需求提供了可能。本文将技能词抽取任务转化为序列标注问题,借鉴了命名实体识别或者术语抽取的方法。然而,由于中文的语义和上下文情形的复杂性以及手工标注成
人体动作捕捉技术一直是计算机视觉和计算机图形学研究的热点之一,这项技术被广泛应用于机器人、虚拟现实、影视动画、步态康复和运动分析等各项领域。现有的动作捕捉方法大多数都需要为实验者佩戴相关的动作传感器,设备昂贵并且对采集的环境有较高的要求;其它的一些方法则是利用数据集驱动人体建模完成三维动作的重建,这种方法过于依赖数据集的特征,扩展性较低。因此本论文提出通过深度学习和双目立体视觉相结合的方法实现人体
随着大规模集成电路的发展,网络通信数据量的激增,对高速数据传输系统的要求越来越高,传统的基于电互连的片上网络由于集成过多的IP核会导致高功耗、易受电磁干扰、高传输时延等问题,限制着未来多核处理器的发展。相对比电互连片上网络,光互连片上网络由于带宽大、传输速度快、不易受电磁干扰等优点,逐渐受到科研院校的关注,但在数据量小、路由距离较近的情况下,光互连片上网络的优点无法弥补光电转换过程和链路配置带来的
情感是人类表达个体思想的主要方式,在日常生活中占据着非常重要的地位。情感识别是当前人工智能和人机交互领域的重要研究内容,被众多研究人员广泛关注。情感识别的早期研究大多基于单一的模态,随后发现采用单一的模态进行情感识别具有很大的局限性,而不同模态之间提取的情感特征在一定程度上能够互补,通过对不同模态融合进行情感识别,能够进一步的提升识别精度。语音和人脸表情是人类表达情感最快捷、直接的方式,成为了情感
近年来,汽车逐渐成为人们生活中新的多媒体中心,与汽车相关的智能交通、车联网等新技术也被陆续推广开来,这使得车载通信系统正向着宽频带多频带的方向发展。因此,拥有更宽的频带,覆盖多个通信频段的天线成为汽车通信的一个研究重点。本文以电磁偶极子为基础,围绕具有宽带、多频带的天线展开研究。论文的主要研究内容和成果如下:1.基于电磁偶极子的宽带、多频带双极化天线研究。通过研究电磁偶极子的辐射原理以及天线辐射片
微型水下航行器在海洋资源勘探、生态监测、民事救援及军事侦查等方面可发挥重要作用。模仿水生生物设计的水下航行器具备生物一些运动及形态特性,除具有体积小、成本低、便携等特点外,还具有推进效率高、机动性强、噪声低等特点。因此,针对微型水生生物开发相应的微型水下航行器具有重要意义和实用价值。金边龙虱具有优异的游泳能力且能在陆地较快爬行,是设计微型潜水机器人的绝佳素材。龙虱的身体结构与其游泳特性有密切关系,
大规模多输入多输出(Multiple Input Multiple Output,MIMO)技术在提高系统性能方面具有显著的成效,毫米波为现代通信技术提供大量未授权的频谱资源,并且,由于毫米波较短的波长,可以使天线阵列微型化,极大的降低了成本损耗。将大规模MIMO技术与毫米波结合,不仅可以有效的提升系统的传输速率,而且还可以极大的增加系统的传输带宽。在毫米波大规模MIMO系统中,混合预编码技术可以
在音视频会议、机器人及语音识别等应用领域中,阵列信号处理技术起到了举足轻重的作用。语音定位本身属于阵列信号处理技术领域的一个重要组成部分。在噪声较大及混响较强的实际环境下,常用声源定位算法的鲁棒性较差。相位变换加权的可控响应功率定位算法(SRP-PHAT)具有一定的抗混响能力,但抗噪声能力较差且算法的计算量较大。为了减小SRP-PHAT定位算法的计算复杂度,提升强噪声、高混响环境下声源定位算法的性
近年来,无线传感器网络(Wireless Sensor Network,WSN)技术得到了广泛研究,其在军事、医疗、环境等领域得到了广泛应用。其中,节点定位技术是WSN的关键技术之一。受到WSN中传感器节点部署成本、资源、部署环境等因素的限制,对每个节点都安装定位模块进行定位是不切实际的。因此,有效的方法是对少量节点安装定位模块,利用这些节点的位置信息实现整个WSN的定位。现有的诸多定位算法中,集
平板阵列天线的口径分布比较容易控制、易于实现高增益和低副瓣,这使得它在日益复杂的通信环境中备受关注。本文介绍了矩形波导馈电的平板缝隙阵列天线和微带阵列天线的研究背景和意义以及发展现状,并以此研究实现阵列天线提高增益和降低旁瓣的技术。研究内容分为以下两个部分:1、高增益低副瓣矩形波导缝隙阵列天线的研究。该阵列天线由上而下分别为辐射层、耦合层和馈电层,其中:(1)辐射层有八个辐射单元,每个单元均采用B