基于句法树模式的产品评论意见挖掘研究

被引量 : 9次 | 上传用户:liqund7h
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着B2C商务模式的蓬勃发展和网络购物的流行。网络评论数量飞速增长,信息内容越来越庞杂,导致客户评论中的有用信息难以被获取。因此,迫切需要一种有效的手段对各种大量评论数据进行整理,以形式化的方式将数据的统计结果展现给消费者。网络产品评论的意见挖掘技术正是在这样的应用需求环境下产生并迅速发展起来的。意见挖掘(Opinion Mining)是数据挖掘的一个重要的研究方向,它基于数据挖掘和文本挖掘技术,同时又具备一定的文本理解和倾向性分析的能力。评价对象抽取和情感倾向性分析是意见挖掘的两个核心任务。本文对这两个核心任务的方法进行了深入研究,并以产品评论作为研究对象,将分析任务分为评价对象抽取、评价对象关联对识别和情感倾向性分析三个部分,将产品的各个组成部分和各个属性作为特征,分析并统计产品的每个特征的褒义和贬义评价数量,并最终展示给用户。本文的工作主要包括以下四个方面:(1)在评价对象抽取方面,本文提出了一种基于模式匹配的抽取方法,本方法首先通过大量样本统计,获得种子规则集,以抽取有效评价句,继而通过句法结构组合以及词性距离相关性算法来抽取评价对象。种子规则和评价对象被存入相应的模式库。同时,本文采用半监督学习方法与动态替换来进行规则的学习与评价对象的扩充训练。这种方法使得抽取的评价对象在准确率和召回率上都有很大的提高。(2)提出了句法树结点泛化组合与模式相似度匹配相结合的方法。本文使用模式匹配的方法抽取评价对象关联对。精确的模式匹配在用于句法树这种结构时,匹配难度很大,导致最终抽取结果召回率不高。本文首先将句法树结点进行泛化组合,然后使用相似度算法进行模式匹配。实验证明,本文的方法结果优于精确匹配,也优于没有进行句法树结点泛化组合的情况。(3)在情感倾向性分析过程中,将拆分判别引入到情感词典匹配的方法中。由于评价词是由句法树结点泛化组合后的词,对于在评价词典中未找到的评价词,以其分词后的词作为最小单位再次在评价词典中查找,并采用线性加权的方式对整个评价词的倾向性进行判别。实验证明,这种方法可以有效地减少情感倾向性误判的情况,使得情感倾向性结果具有更高的准确率。(4)本文设计并实现了一个通用的产品评论意见挖掘系统,实现了从采集互联网产品评论、产品特征抽取、情感倾向性分析到以人性化的形式展示结果于一体的集成环境。本系统主要由数据处理平台和用户可视化平台构成。包括网络产品评论的采集、评价对象关联对的识别、情感倾向性分析以及产品特征倾向性展示等模块。
其他文献
通信行业重组及3G牌照的发放使得通信行业竞争越来越激烈,同时由于客户规模趋于稳定,原来的粗放式营销模式已不适应现有的市场环境,竞争已经从过去以产品为中心转向以市场、客户
资产证券化已经成为目前我国金融市场的一个热点,如何对住房抵押贷款证券合理定价是其中的一个关键问题。在对早偿、违约等问题的研究基础上,综合国内外研究方法,本文给出了
形状量词具有丰富的形象性,可以较好的反映事物形体特征,是汉语量词中重要而具代表性的一类。“股、束、绺、缕”是一组计量细长物体的近义形状量词,所计量的对象相似,在一定
<正> 卢龙赵氏,唐朝以来就颇为知名。自五代及辽初的赵思温始,更是家世显赫,成为辽代汉族"勋阀富盛"的韩、刘、马、赵四姓之一,历金、元而不衰。赵氏家族的一支,辽时久居建州
我国环境法的理论与实践受到环境保护权利话语的强大影响,分别形成了环境权理论和环境维权解释框架。尽管目前对环境权理论已经有所反思,但并没有从根本上摆脱权利话语的支配
针对火山岩地层岩性识别成功率低的状况 ,应用模糊数学原理 ,建立模糊数学识别火山岩岩性模式 ,识别和划分火山岩地层岩性 ,以便进一步深入研究火山岩油气藏储层。选择 8个反
应用型课程是产教融合背景下职业教育长足发展的关键性因素。文章在分析了应用型课程的政策依据、理论依据及应用型课程理论的基础上,认为应用型课程目标的确立应基于国家职
<正> 从19世纪70年代开始,李鸿章受命督办北洋海防长达20余年之久。北洋海防建设不仅是李鸿章后半生最重要的活动,也是清末中国海防建设的缩影。探析李鸿章同北洋海防建设的
美国网络信息安全治理机制主要包括网络信息安全治理的宏观战略、法律制度、组织体系和审查原则四个方面。其中,战略政策体现的是美国政府治理网络信息的宏观构想;法律制度和
团队医疗过失犯罪中的监督过失属于过失竞合而非共同过失,其归责的法理依据是"新过失论"。引入监督过失理论可以解决团队医疗过失犯罪中监督过失责任认定的法学理论根据问题,