数据挖掘在电影票房中的研究与应用

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:youki2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电影行业信息化系统的不断完善,制片商和放映公司积累了大量商业电影的观众和票房销售数据,这些海量数据使用传统的查询或分析工具往往不能识别其中有价值的信息。如何更加有效地管理电影商业数据库中快速增长的海量数据,将数据资源的利用提高到知识创新,可实用的高级阶段,己经成为电影公司当前需要迫切解决的问题。而数据挖掘技术则能够解决上述问题,因此数据挖掘技术在电影商业中如何有效的应用,提取出实用的信息已经成为电影公司关注的话题。商业电影运作特点决定了电影票房在其经营过程中的重要地位,而有效的观众关系分析必须建立在强有力的数据分析基础上。电影票房、观众特征数据的海量性,一方面为电影公司进行数据分析提供了基础;另一方面也使得数据分析的难度相对以前大大增加。如何使海量电影商业数据真正转变成为电影公司商业决策的知识财富,有效地支持制片商及放映商对电影市场以后的决策和实施,进而迎合观众的兴趣,爱好,赢取市场及票房,是当前制片商和放映商最为迫切的课题。   本文主要采用决策树算法,对商业电影数据和观众特征数据进行分析和挖掘。用线性回归算法与决策树算法做比较,突显决策树算法优势。同时,结合关联规则作辅助分析,对决策树的规则提取提供辅助分析信息,使其提取的规则更为全面,有效。在数据的预处理方面,采用聚类的K-均值算法对缺省值进行处理,取得较好效果。选择SAS作为数据挖掘软件进行了数据分析和挖掘,建立观众特征分析和商业电影市场特征分析模型。选取C4.5算法作为决策树技术算法依据,并对C4.5算法做了一些改进。并将改进后的决策树C4.5算法较好的运用到SAS中。最后,对改进后的决策树和线性回归算法进行了比较,通过优劣的多方面比较,发现决策树模型相对线性回归模型整体效果更好。随着数据挖掘技术的不断发展,电影制片公司及电影放映公司必将逐渐注重其在商业中的应用,通过有效的利用提取出的规则和知识,从而能更有效指导以后的运营决策工作,最终赢取市场,获得理想的票房。
其他文献
随着计算机技术的不断发展,许多企业都构建了大量的应用系统。然而由于多方面的原因,这些不同应用系统彼此独立,互不相通,形成了一个个“信息孤岛”,数据不能共享,业务无法协同。企
随着计算机技术、通信技术和多媒体技术的飞速发展,高质量的视频传输已逐渐成为数字通信网络的主要业务,将嵌入式技术与网络、通信和多媒体技术的相互融合将成为数字视频通信
计算机安全自互联网普及以来逐渐成为人们关注的焦点,安全问题也成为业界最为头疼的问题。使用木马、病毒和蠕虫在互联网上窃取用户的个人敏感信息的事件也屡见不鲜,而这些恶
随着信息化技术的发展和数字化产品的普及,以计算机技术、芯片技术和软件技术为核心的嵌入式系统成为当前研究和应用的热点。微电子技术和嵌入式操作系统的不断发展,为数字网
随着科技的进步和技术的发展,在临床医学中医学CT图像发挥着越来越重要的作用,它成为医师诊断疾病的重要手段,尤其在肺癌的早期检查中。近年来,医学影像技术的发展提高了医学
自R.Ahlswede等人于2000年提出网络编码的理论以来,网络编码逐渐成为网络信息论的研究热点。目前网络编码的研究开始逐渐向应用领域发展,如无线网络编码、传感器网络、大文件分
多示例分类模型最早是Dietterich等人[1]在研究如何解决制药业中选择哪种分子入药中提出的一种模型。在多示例学习中,我们直接把标签赋给多个示例组成的包,而不是包中的示例。
水平集(Level Set)方法最早由Osher和Sethian提出的,该方法的基本原理是将演化的曲线或者曲面作为零水平集嵌入到高一维的水平集函数中,通过演化高维中的函数,达到演化零水平
MicroRNA(miRNA)是一类长度约为22-24个核苷酸的非编码RNA,能够在转录后层次上调控基因表达。大量研究表明,miRNA与生物体内许多重要的生物过程相关,可以作为疾病临床诊断和
图像工程目前研究和发展的瓶颈主要在理解层次上。本文提出了以像素统计为基础,将图像处理、图像分析、图像理解三个不同的过程融为一体。同时,在保留原有算法优点的基础上,解决
学位