论文部分内容阅读
随着计算机技术以及存储技术的发展,人们收集数据的能力大大地得到了提高。数据爆炸式地增长,对人们从海量数据中发掘有用知识的能力要求也越来越高。2010年上海世博会是迄今世界上规模最大、参加的国家与国际组织、参观人数最多的一次世博会。在184天的时间里,产生了大量实际数据,像视频数据、每5分钟入园的客流数据以及门票销售数据等。如何从收集到的这些数据中发掘有用知识,对未来做出预测性判断,比如预测每天的客流,势必会给世博会组织调度人力、财力、物力以确保世博会安全有效地运行提供有用的参考意见。对世博客流做出准确的预测意义非常重大,因此本文将世博客流的预测作为第一个研究点。另一方面,互联网的飞速发展,社交媒体(像微博、人人网等)的流行,使得社会网络中产生了大量的数据,这些数据最大的特点就是及时、准确地反映了用户的真实感受。从这些及时、准确反映用户真实感受的社交媒体中发掘有用知识,并对未来做出预测,是当下研究的热点与难点。同时,企业品牌都通过社交媒体来宣传发布自己的新产品,利用社交媒体来提高自己产品的知名度,因此通过对社交媒体数据的发掘,利用发掘出的知识对产品的未来表现做出预测,帮助企业决策,将具有重大意义。本文在成功预测世博客流的基础上,将利用当下最流行的社交媒体——微博数据,来研究电影票房的预测方法。世博客流具有很强的非线性和随机性,而人工神经网络是一个非线性的动态系统,可在任意精度内实现变量间的非线性关系的映射,并且具有良好的自学习能力、自适应和良好的泛化能力,神经网络的这些特性能够在某种程度上满足非线性预测要求。同时世博客流数据有着自身的特点,入园高峰出现在上午10点到12点之间,入园高峰点与当天的入园人数有着强烈的线性关系,因此,找出高峰点——拐点,以对世博客流的线性部分预测,具有重要的意义。本文提出一种计算拐点的算法,建立拐点预测模型并对世博客流进行预测。同时我们还将线性预测模型与非线性预测模型组合,提出了组合预测模型,以克服单个预测模型预测精度小的缺点。在利用社交媒体——微博数据对电影票房做预测的研究中,我们发现微博数的变化能够很好地反映电影票房的趋势,他们之间存在着强烈的线性关系。我们利用微博率建立了线性回归模型,并对电影票房做出预测,实验结果表明我们建立的模型是有效可行的。同时,我们利用数据挖掘技术中的情感分析技术对微博内容做了情感分析,用得到的情感值作为回归模型的附加变量,建立预测模型,提高了预测精度。我们得出结论:从社交媒体中发掘知识,对未来做出预测是切实可行的。本文研究的创新点有:(1)提出了拐点预测模型并结合BP神经网络建立了组合预测模型对世博客流进行了预测。(2)对当下最流行的社交媒体——微博数据进行挖掘,用挖掘出的微博率这一知识来建立线性回归模型对电影票房做出了预测。(3)研究了情感分析算法,对微博内容做情感分析,将得到的情感值运用到电影票房的预测中,提高了预测精度。