论文部分内容阅读
微博作为一种新兴的社交媒体,已经积累了大量的用户和影响力。微博不断增加的在线评论正在极大影响着传统的市场决策,使得文本挖掘成为商业界和学术界共同的热点话题。用户的每一条评论所汇聚成的集体智慧,不仅含有对某种商品的购买意愿,即消费意图,此外,微博平台上包含着用户对商品各方面评价的用户评论也影响消费者的购买决策。这些包含消费意图和情感倾向的数据对科学研究和商业应用有着极高的价值。本文以微博中电影主创人员的电影评论为研究对象,重点关注评论中的消费意图和情感信息挖掘,并探讨将这种信息用于票房预测。具体来说本文的工作主要包括以下五个方面:(1)对消费意图分类进行重定义:在微博评论中即便用户表达出了消费意图,也不一定代表会有消费行为,因为消费意图正例包括显式消费意图和隐式消费意图。因此,本文将消费意图正例定义为显示消费意图,即明确表明要进行消费的用户。(2)对情感分类标准进行重定义:由于正面评论的数量和票房之间没有直接的关系。因此本文首先假设如果有更多的微博评论是和票房增长相关,则电影的票房会更好。基于这个假设将经过主客观分类的微博评论分为3类:正面评论即消费意图正例;中性评论即对影片、演员等表达积极情感的评论;负面评论是对剧情、演技等表达负面或者消极的情感。(3)基于SVM的消费意图挖掘:本文提出了基于SVM的消费意图分类算法,首先通过对微博语料的观察,定义消费意图正例的2类特征;然后采用人工标注的方式获得消费意图正例;将定义的2类特征用来表示评论文本并训练出消费意图分类模型,并利用该模型对给定的微博评论进行消费意图分类;最后将分类结果与人工标注的结果对比,准确率高达73%。(4)基于SVM的情感分类:为了对评论中的信息进行挖掘,本文首先对已有的情感资源加以概括和总结,使用扩展的点互信息算法(SO-PMI)判断候选词的情感类别,自动获得领域词典,构建一个面向微博电影评论的情感词典。然后,由于微博表达方式的多元化,首先对评论文本进行预处理,采用情感词作为特征选择;最后使用Libsvm进行情感分类。(5)将消费意图和情感分析用于票房预测:本文探讨了将消费意图和情感分析应用于票房预测,并使用线性回归模型和SVR分别进行了实验。结果表明,融入了消费意图的模型在首映周有更好的预测效果,其对首映周的票房解释能力高达87%。此外,本文提出的模型和Baseline实验对比,首映周相对误差绝对值降低了24个百分点;总票房的相对误差绝对值降低了14个百分点。