基于产品评论的意见抽取方法研究

来源 :黑龙江大学 | 被引量 : 0次 | 上传用户:wuyishijian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的成熟,各类依托于网络的电子平台得到很好的发展和普及,人们可以通过这样的网络媒体表达自己的观点和意见,其中蕴藏着大量信息,具有不可小觑的研究价值。产品评论信息作为用户产生文本的重要组成部分,如何快速、准确的挖掘其中包含的意见信息,已经成为自然语言处理(Natural Language Processing,NLP)相关领域的热点问题之一。本文面向产品评论,在机器学习框架下融合多种特征和知识探索汉语意见抽取方法,重点研究意见要素识别、意见关系抽取和动态极性分类问题。具体地,本文主要从以下三个方面展开研究:(1)条件随机场结合知识库的意见要素识别。意见要素分为显性意见要素和隐性意见要素两类,其中隐性属性识别一直被认为是意见要素识别的瓶颈问题。本文在条件随机场模型框架下,融合词形、词性、位置信息及上下文信息等特征进行显性意见要素的识别,取得了理想的实验结果;为了识别隐性意见要素,本文首先采用统计方法构建搭配知识库,然后在条件随机场框架下确定隐性属性位置,最后利用搭配知识库确定隐性属性。实验结果表明融合多种特征和知识有利于意见要素识别性能的提高,尤其是隐性意见要素识别。(2)基于支持向量机的意见关系抽取。意见关系分为产品品牌与产品属性构成的“Aspect-of”关系和产品属性与评价构成的“Aspect-Evaluation”关系两类,其中存在的一对多和多对一的复杂意见关系抽取一直被认为是关系抽取的瓶颈问题。本文认为复杂意见关系是由多个简单的意见关系构成的。为了抽取意见关系,本文将意见关系抽取问题形式化为一个分类问题进行处理,首先构造简单意见关系候选,然后在支持向量机框架下,融合词性、依存关系、距离信息融合等特征进行意见关系判别,进而构建一种基于支持向量机的意见关系抽取系统。实验结果表明了基于支持向量机的意见关系抽取方法的有效性。(3)基于动态极性词关联词词典的情感极性分类。本文以产品评论句中的产品属性为主体,将句子粒度下的情感极性分类问题转化为词粒度下的情感极性分类问题。特别地,动态极性词的情感极性分类是情感极性分类的瓶颈问题,针对该问题本文提出基于动态极性关联词词典的情感极性分类方法,为具有动态极性的情感词分别构造褒贬倾向的关联词词典,证明了基于动态极性关联词词典的情感极性分类方法的有效性。
其他文献
随着信息技术的发展,人们可用的数据资源呈爆炸式增长。在面对这些海量数据时,用户需要有强大的检索工具来帮助自己找到所需的信息。开放域问答(Question Answering,QA)研究
本文通过研究目前试题库软件的应用技术和发展现状,并根据机械制造工艺学课程的特点,进行了机械制造工艺学课程试题库软件的需求分析,建立了软件模型,提出了软件的解决方案。
随着互联网的快速发展,网络中产生的数据量呈指数级增长趋势,如何对海量数据进行高效的存取已经成了计算机领域的一个研究热点。HDFS(HadoopDistributed File System)是Hadoop
计算机和网络技术的进展使信息的发布与共享不再受到时空限制,同时也给我们带来了“信息过载”的问题,即信息资源极大丰富,而真正有用的信息和知识却相对匮乏。作为一个全球
近年来,网络教育由于不受时间和空间的限制而被广泛应用,作为教与学桥梁的网络课程,常在网络教学中承担教师、教材和教学媒体三种角色。尽管从网络教学的本质和技术特质上来看,网
随着网络门户技术的飞速发展,门户中的应用系统越来越多,而每个应用系统往往都有自己的一套用户认证方法,用户管理往往非常困难。为了对用户进行统一的管理,有必要将不同系统
人脸识别技术也就是利用计算机分析人脸图像,进而从中提取出有效的识别信息,用来辨识身份的一门技术。它涉及了图像处理与分析、计算机视觉、人工智能、模式识别及生物学等多
基于.NET课件点播(Courseware on Demand,COD)系统的主要目的是为了对学校的教学课件资源进行整合,为在校师生提供课件点播学习环境,促进学生的学习积极性,提高教师的教学水
随着高科技的发展,智能监控系统的应用越来越广泛。运动物体视觉分析作为智能监控中的一项核心技术,它包括运动物体检测与提取、物体分类、事件检测、行为识别和分析等,而运
计算机技术与无线通信技术的结合,使得无线移动设备广泛应用于各个领域。无线移动设备可以通过无线链路接入Internet,同时能够快速、方便地访问Internet资源。无线局域网是有