论文部分内容阅读
随着网络和计算机在人们生活中的普及,消费者在网上购物后会通过网络发表自己对产品的评论。由于这些评论包含了消费者对产品的评价意见,因此对其进行挖掘对商家改进产品以及消费者购买产品起到了辅助作用,有着广泛的应用价值和研究价值。产品评论挖掘主要包括产品特征抽取、观点抽取以及极性分类等方面的研究。而在这些研究中,以往的方法将研究重点集中在评论内容上,同时所依赖的极性词典也是由固定词构成的,因而影响了评论挖掘的效果。针对这些问题,本文面向图书评论进行了研究,主要工作包括以下几个方面:在构建词典时,考虑到词对类别的贡献不同,将CHI值思想应用到词典构建中,提出了一种基于改进CHI值的极性词典构建方法。该方法通过计算每个词的CHI值来完成对词的极性分类。随后,对于没有包含在词典中的词,根据同类极性词共现的特点对其进行提取并将满足阈值要求的添加到相应的极性词典中,实现了词典的动态添加,在一定程度上解决了词典固定不变的问题。另外,考虑到有些极性词是特定修饰某一特征的,因此又将极性词做了进一步地划分,以便用于分析未包含特征的评论。在进行评论极性分析时,改进了转折复句的极性计算公式,以适用于图书评论。同时,考虑到某些图书评论带有标题,而这些标题通常表达了评论者的观点倾向,据此提出了基于标题和改进的重转句极性计算公式的评论极性分析方法。该方法将标题极性作为评论的极性标注来对其进行极性分析,并在分析中利用上述改进的公式调整评论极性,从而减少了评论极性分析的错误。在进行评论观点总结时,改进了SBV算法,以适用于图书评论。该方法主要根据词语间的依存关系来提取评论句中的特征和观点,据此对评论进行观点总结。实验结果表明,本文提出的方法是有效的,较好地改善了图书评论观点分析的效果。