论文部分内容阅读
从全球范围来看,电影行业是增长最迅速的产业。每年都有成千上万部的电影上映,电影市场年均复合增长率也在逐年增长。然而人们的喜好是非常难预测的,一部电影上映之后,能够满足自负盈亏的平衡点具有相当高的风险,所以,电影票房预测一直是电影行业非常关注的问题。电影票房的研究在经历“观众研究”和利用元数据、多因子的方法进行模型改进和影响因子的研究阶段之后,研究者们充分利用了网民在线生成的海量内容作为预测的主要信息来源,建立了更加高效、准确的票房预测模型。预测算法都是在电影上映之前进行的,预测进行的越早价值越大,但是由于互联网数据的滞后性,是电影上映之前和发布之后的微博数据量差距特别大,电影上映之前的微博数据量占总量的一小部分,大多数的微博数据都集中在电影上映的第一天或者是第一周,模型预测的性能和准确性一般都不高。为了尽量的消除互联网数据的滞后性对预测结果的影响,本文提出了一种新的基于微博数据的预测模型来预测电影票房,我们提出将整个预测过程分为三个时间阶段,使用预测算法构建了3个在时间维度连续的模型,即电影上映之前、电影上映一周以后、电影上映两周以后分别预测电影上映后第一周的票房、电影上映后二周累计票房、电影上映后三周累计票房。将模型变量分为两类,一是实际票房数据,二是微博数据。在预测电影上映两周、三周累计票房的时候,已经有了第一、二周的实时票房数据,可以将实际票房也加入到预测模型中。在参考前人研究模型变量基础之上,我们对微博数据做出提及、情感提及、积极情感、消极情感四个维度特征,并在这四个维度之上派生了十二个维度。3个预测模型都是通过遗传算法优化的支持向量回归机进行构建的,通过仿真实验得到了各个模型的最佳参数,并通过绝对误差值指标验证了该模型的科学性和合理性,并且预测的时间越晚,准确率越高。