基于依赖关系的产品网络评论倾向性研究与实现

来源 :东华大学 | 被引量 : 1次 | 上传用户:yaya_tush
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,越来越多的人通过浏览互联网中产品的评论信息来了解产品的质量与服务的口碑,以便帮助他们做出可靠的决策;另一方面,作为生产厂家,他们也可以通过用户的产品评论及时了解用户对产品的意见或建议,从而在以后的生产中改进产品的性能或服务。由于互联网中的产品评论具有数量大、随意性、变化快等特点,如果采用传统人工阅读的方式,不仅需要消耗很长的时间,而且即时性差。这些迫切的应用需求使得产品评论自动挖掘应势而生,并迅速成为信息处理领域的热点之一。产品评论挖掘包括挖掘用户评论中提及的产品特征(即评价对象)、挖掘用户对产品特征的主要观点(即评价词)、判断评论观点的情感倾向性以及根据观点的重要性进行排名等四个子任务。用户评论中对产品特征描述中往往会利用多个词语限定他们描述的是产品具体哪一属性或哪一个组件。传统的产品挖掘抽取出的产品特征仅包含产品属性或组件名称,忽略了这些限定关系。本文利用语义间依赖关系抽取产品属性前后的修饰词组合并作为复合产品特征。同时将传统的评论挖掘转化为序列标注问题,并利用条件随机场CRFs在标注方面的优势,结合语义间依赖关系,提出了基于语义间依赖关系的条件随机场抽取产品复合特征的算法。在抽取复合产品特征后,继续利用语义间依赖关系抽取产品特征词对应的评价词语,最后利用HowNet判断评价词语的倾向性。通过对互联网中产品评论进行实验,我们取得了较高的准确率与召回率。本文的主要工作如下:1、研究了现有的产品评论挖掘算法,将传统的评论挖掘问题转化为序列标注的问题。文中以F代表评价对象、O代表评价词,B代表其他无关词语来标注用户评论,从而可以用以F、O、B三元素组成的序列代表评论。近年来,条件随机场CRFs被广泛应用于序列标注中,并取得了良好的效果。2、传统的产品特征识别有基于规则和基于统计的方法。基于规则的方法虽具有较高的准确率,但很大程度上依赖于词语的先后顺序。本文针对语法依赖关系采用中心词语驱动,不过多强调句子中固定词序的特点,将词语依赖关系作为条件随机场CRFs中的因子,从而将依赖关系与条件随机场CRFs结合起来对句子进行标注。通过对互联网上采集下来的产品评价集进行挖掘实验,结果分析表明,算法取得了较高的准确率和召回率,并具有领域独立性的特点。3、用户评论的评价对象与评价词通常成对出现,本文利用中文语义依赖关系提取产品评价对象所对应的评价词;然后利用基于HowNet等资源的中文极性词典从而判断评价词的极性,并进一步对产品特征进行极性分类。4、基于.Net4.0和ASP.NET MVC4平台,本论文设计并实现了一个产品评价倾向性识别原型系统。系统的采集模块将京东商城和易迅商城的产品评价采集存储后,利用文本处理模块对评论进行分词、词性标注以及获取依赖关系等预处理;然后利用条件随机场CRFs算法进行自动标注,通过对标注后的结果进行分析;最终,提取出用户评论中涉及的产品特征以及用户在描述产品特征中表达出的情感倾向性。系统的结果显示模块向最终用户显示产品各个特征的优劣程度。
其他文献
近年来随着互联网及计算机控制技术的发展,人们的生活水平不断提高,人们对家居智能化的要求也越来越强烈。嵌入式技术和网络技术越来越深入到了人们的生活当中,人们对居住环
压缩感知,是近几年在信号处理领域出现的新颖的采样理论,该理论显示,通过采集相对较少的感兴趣的信号值就可实现稀疏的或可压缩信号的精确重建,这样就使得信息获取、存储、处理和
随着互联网技术的发展,Internet实时视频传输在远程教育领域起巨大作用,多媒体技术和网络技术在教育板块里的应用是一个热点问题。流媒体(Streaming Media)技术具有边下载边
本文主要研究了云计算环境下的访问控制技术,分析了当前云安全中遇到的用户数据安全与隐私保护的问题。在对当前研究现状进行深入学习和总结后,进行了以下的相关工作:  在复杂
设施花卉是设施农业的重要组成部分,可用来栽培对环境因素要求高的珍贵花卉品种,提高花卉种植的经济效益,处于花卉产业金字塔的顶端。花卉图像的自动分割与特征提取方法研究,
本文对基于《知网》的文本相似度进行了论述,针对本文的研究对象《知网》,对其概念、特殊文档以及结构进行了重点的分析和研究。首先,介绍了《知网》的概念,指出了其中的特有的重
在数字信息时代,图像处理技术在医学、航空航天等领域得到了大量的应用,其中图像分割和图像增强是最具代表性的两种图像处理技术。在很多图像处理算法消耗时间越来越多的情况下
  数据挖掘是在海量的数据中挖掘出潜在的、有价值的信息,这些信息给人们提供帮助。聚类分析是数据挖掘中一个重要的应用。它以“物以类聚,人以群分”的思想,根据对象之间
社会标注系统的快速发展为互联网信息组织提供了新的方式。它延续了Web2.0以用户为中心的特点,充分利用用户知识来进行数据维护和管理。目前,越来越多的系统提供了对社会标注
随着计算机和网络技术的发展与普及,信息在人们的生活中扮演着越来越重要的角色。信息素质是人们获取、评价和使用信息资源的能力,是人们跨入信息社会,在生理素质、心理素质和社