论文部分内容阅读
随着电影行业信息化系统的不断完善,制片商和放映公司积累了大量商业电影的观众和票房销售数据,这些海量数据使用传统的查询或分析工具往往不能识别其中有价值的信息。如何更加有效地管理电影商业数据库中快速增长的海量数据,将数据资源的利用提高到知识创新,可实用的高级阶段,己经成为电影公司当前需要迫切解决的问题。而数据挖掘技术则能够解决上述问题,因此数据挖掘技术在电影商业中如何有效的应用,提取出实用的信息已经成为电影公司关注的话题。商业电影运作特点决定了电影票房在其经营过程中的重要地位,而有效的观众关系分析必须建立在强有力的数据分析基础上。电影票房、观众特征数据的海量性,一方面为电影公司进行数据分析提供了基础;另一方面也使得数据分析的难度相对以前大大增加。如何使海量电影商业数据真正转变成为电影公司商业决策的知识财富,有效地支持制片商及放映商对电影市场以后的决策和实施,进而迎合观众的兴趣,爱好,赢取市场及票房,是当前制片商和放映商最为迫切的课题。
本文主要采用决策树算法,对商业电影数据和观众特征数据进行分析和挖掘。用线性回归算法与决策树算法做比较,突显决策树算法优势。同时,结合关联规则作辅助分析,对决策树的规则提取提供辅助分析信息,使其提取的规则更为全面,有效。在数据的预处理方面,采用聚类的K-均值算法对缺省值进行处理,取得较好效果。选择SAS作为数据挖掘软件进行了数据分析和挖掘,建立观众特征分析和商业电影市场特征分析模型。选取C4.5算法作为决策树技术算法依据,并对C4.5算法做了一些改进。并将改进后的决策树C4.5算法较好的运用到SAS中。最后,对改进后的决策树和线性回归算法进行了比较,通过优劣的多方面比较,发现决策树模型相对线性回归模型整体效果更好。随着数据挖掘技术的不断发展,电影制片公司及电影放映公司必将逐渐注重其在商业中的应用,通过有效的利用提取出的规则和知识,从而能更有效指导以后的运营决策工作,最终赢取市场,获得理想的票房。