论文部分内容阅读
随着互联网的迅猛发展,越来越多的人倾向于在网络平台上表达他们的观点和感情,在线电影评论在这样的背景下也逐渐发展起来,得到了许多学者的关注。影评作为观众对影片的评价,可以直接反映出他们观影后的感受,对其进行情感分析具有重要的应用价值,例如院线排片导向、票房预测等。相对于英文情感分析,中文影评可以利用的领域情感词典和工具比较少,语义也更加复杂,研究的学者相对较少。本文基于影评领域情感词典,考虑影评主题因素和主题间的潜在语义关系,提出了TS-BP(Topic Sentiment Back Propagation)混合情感计算模型,主要工作如下:(1)种子词选取是中文影评领域情感词典的构建基础,本文结合语义相似度和改进的词聚类算法给出了种子词选取的具体实现方案。改进的词聚类算法不仅考虑了词与词的语义关系还考虑了词与词在领域文本中的上下文关系。本课题通过实验给出了种子词数量的最佳实践值,结果说明利用本文提出的种子词选取方法去构造情感词典效果更好。(2)面对中文影评领域情感词典资源匮乏的困境,本文利用基础情感词典和改进的SO-PMI算法构建了中文影评领域情感词典,提高了影评领域词语情感极性识别准确率。多组不同的对比试验结果表明本文构建的情感词典用于影评情感分析具有较好的效果。(3)影评所表达的情感主要是针对影片中的一些主题,而情感词在不同的主题下对影评情感的影响力是不同的。本文把主题、情感词和相关属性封装成一个实体,提出了主题-情感实体的概念,并基于不同的主题提取方法,给出了主题-情感实体构建算法。在充分考虑主题-情感实体上下文和主题权重等因素后,本文结合影评领域情感词典给出了主题-情感实体的情感计算方法,实验结果证明主题-情感实体计算模型在影评情感分析中是合理有效的。(4)考虑不同主题间具有一定的潜在语义关系,本文给出了基于主题-情感实体的影评向量化方案,并提出了TS-BP混合情感计算模型。TS-BP混合情感计算模型考虑了主题对影评情感计算的影响和主题间的潜在语义关系,改善了中文影评情感分析的整体性能。试验结果表明,TS-BP混合情感计算模型的平均准确率达到94.7%,高于其他影评情感计算方法,说明了本文提出的TS-BP混合情感计算模型的有效性。