面向Web文本的产品意见挖掘算法研究

被引量 : 0次 | 上传用户:houwplanling
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的广泛应用,在Blog.BBS.Wiki等Web站点中出现了大量的针对商品或服务的客户评论。本文针对这样的Web评论文本,主要研究从文本中提取产品属性词和评价情感词,然后对客户持有的意见进行极性判断。文中使用到的方法经过实验都证明了方法的适用性,相对应所开发出来的系统也具有很好的鲁棒性。本文的研究内容主要如下:1、针对网络资源,首先用基于HTML标签的模式匹配的信息抽取方式从特定的网页中抽取产品属性词建立基本的评价对象词典,然后利用搜索引擎采集评论文本从中抽取情感词,然后基于HowNet计算这些词的倾向性,建立具有口语化特征的情感词表。2、利用中文依存句法分析,结合其他的语义特征进行属性词的抽取,以扩大属性词典,然后使用二部图模型,对属性词和情感词进行反复的互训练,最后将新训练的属性词和情感词分别写入词典,且将匹配的属性词和情感词以二元组的方式写入文本。3、手工构造了否定词、转折词和程度词表,然后定义了评论情感词的评分模型,对抽取出来的评价情感词进行打分,最后确定其极性,即客户对产品属性所持有的意见或者态度。通过上述工作,本文实现了对Web文本的意见挖掘,即属性词和情感词的抽取及意见的褒贬分析,并建立了相关资源。本文最后探索如何实现跨领域,在一定程度上表明了方法的可行性。
其他文献
对外汉语文化类教材是中国文化对外传播的重要载体和工具。20世纪80年代后,对外汉语教材研究成为当前的研究热点之一。相对于语言类教材,系统的开设中国文化的课程以及编撰专
在总结中国畜产品贸易现状及特征的基础上,分析了中国大量进口畜产品对国内畜产品产业的综合影响。结果表明,畜产品的大量进口对中国畜产品产业产生了一定的促进效应和冲击效
目的探讨冠心病外周血胰岛素样生长因子-1、白细胞介素-18表达变化以及与冠状动脉Syntax评分的关系。方法选取冠心病患者95例,采用盲法行选择性冠状动脉造影检查,计算Syntax
信用证欺诈是一种非暴力犯罪,严重影响了国际贸易的进程。随着我国改革开放的不断深入,国际贸易在国民经济中的重要性越来越突出。因此,防范信用证欺诈已引起有关人士的高度重视
<正>文学再现的是"典型环境中的典型人物",因而与诸多二元对立观念有着不解之缘。美国女作家苏珊·柯林斯(Suzanne Collins,1962—)在其超级畅销书《饥饿游戏》(The Hunger G
能源生态足迹作为一种有效的可持续发展的衡量指标,并通过林地生态承载力、能源生态足迹压力强度、能源生态足迹产值等效率测度指标成为了度量一个国家或城市的是否可持续发
根据现代城市有轨电车功能的需求和城市建设对于景观的要求,有轨电车在部分路口或路段采用断接触网模式通过。对断接触网模式进行机械性能与电气性能的分析,提出实现断接触网
我国2007年以来的试点已证明,未形成起码的法律体系,环境污染责任保险事业的建立必然陷入"叫好不叫座"的僵局。2014年修订通过的《环境保护法》仅新增了鼓励投保条款,未能打
1目的观察解毒化瘀通络方颗粒剂治疗毒损络瘀型带状疱疹后遗神经痛的临床疗效,探讨解毒化瘀通络方治疗毒损络瘀型带状疱疹后遗神经痛的作用机理。并探讨带状疱疹后遗神经痛疼
语言文化之中最为精华的部分非成语莫属,它是人类在历史发展中的思想与情感的沉淀,成语能够深刻的反映一个民族语言文化中的内涵底蕴。随着中国与泰国两个国家的贸易发展,越