基于Hadoop的电影海报色度聚类分析

来源 :天津大学 | 被引量 : 0次 | 上传用户:zhoulinqin274385037
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在如今的大数据时代,随着互联网技术的飞速发展,信息量的指数级增长为用户提供了诸多便利,但随之而来的问题是面对海量的数据,用户在很多情况下往往不知道自己真正的实际需求。在这样的背景下,推荐算法应运而生。推荐算法可以帮助用户快速找到和自己预期匹配的信息,另一方面也可以利用推荐算法为用户推荐感兴趣的信息。另外,随着机器学习和大数据云计算的热门兴起,传统的依靠电影类型、名称、演员表等的推荐方法已经不能满足人们的需要,而颜色作为图像的重要特征,成为了推荐算法的一个新的突破口。但是随着算法复杂度的提高和待处理数据集的扩大,单一机器的运算量已经无法适应这种规模的数据处理过程,使得整个联合算法运行速度缓慢,而且扩展性也不尽人意。因此本文使用了Hadoop并行运算来解决数据处理的瓶颈问题。本文重点研究了提高聚类算法在提取海报主色上的精度问题,颜色因素对电影数据协同过滤推荐算法准确度的影响以及算法时耗的问题。通过将传统的密度思维从选取初始聚类中心上移至聚类结果优化处理上,从而减小了密度计算的数据集,相对节省了密度计算的时间开支,并且保证了聚类结果不会像基于密度选取初始点那样随着平均迭代离开理想的高密度区域,从而保证了计算效率。为了进一步提高算法的运算效率,本文脱离了传统的单机运算,利用Hadoop并行计算框架,将数据集分散成数据块分发给工作的数据节点利用MapReduce编程模型进行并行运算。实验结果表明,本文提出的聚类改进算法,有效地缩短了计算时间,并且相比需要历经漫长的计算才能提取初始聚类中心,又经过几次平均迭代却无效化的传统的密度改进算法,将密度的思想有效的落实。并利用Hadoop技术进一步缩短了算法的整体运行时间。通过进一步的实验,利用聚类产生的颜色信息进行带有颜色信息权重的协同过滤推荐算法,证明了颜色信息能够在一定程度上提高推荐精度的理论。
其他文献
目的:全身正压通气麻醉诱导期间,通过超声测量通气前后胃窦、胃底面积,评估胃内进气与正压通气值之间的关系;寻找既能保证足够血氧饱和度又能使胃内进气量最少的正压通气值。
目的:探讨替格瑞洛对经皮冠状动脉介入(PCI)治疗急性非ST段抬高型心肌梗死(NSTEMI)患者炎性因子和不良心脏事件(MACE)的影响。方法:采用随机数表法将200例NSTEMI患者分为氯吡
射频容性耦合等离子体(Radio-Frequency Capacitively Coupled Plasmas,RF-CCP)源,具有结构简单,并且能够产生高密度的等离子体的优点,因此被广泛应用于低温等离子体放电技术中。由于数值模拟具有成本低、效率高的优点,所以常被用来研究等离子体的特性,常用到的数值模拟方法主要有PIC-MC(Particle in cell-Monte Carlo)模型、流体模
目的:构建IX型胶原α2(collagen type IX alpha 2 chain,COL9A2)基因野生型与G143C、G884A突变型质粒,为进一步研究COL9A2基因功能奠定基础。方法:应用聚合酶链式反应(polyme
上市公司出现财务或其他经营状况异常的现象时常发生,为了保护投资者的利益,证监会要求对出现财务及其他状况异常的上市公司股票交易实施特别处理。但因为目前的退市制度较为宽松,再加上信息披露制度的不完善,*ST公司为保住壳资源而实施的盈余管理手段越来越多样化。本文主要采取案例研究的方法,研究青海春天这样一家在上市17年的时间中三次被*ST或ST的公司的盈余管理行为。首先对其三次被*ST或ST的过程进行了梳
近年来,传统蒙古文字体设计开发行业得到了较多关注。但传统蒙古文字体设计开发效率一直无法有效提高。主要原因在于:首先,传统蒙古文字特有的竖式结构以及复杂的字形变化,对字体设计师造成了较大的困扰。其次,现有字体设计开发软件没有针对传统蒙古文字造型参考。最后,蒙古文编码内容较为繁冗复杂,现有字体软件所提供的便捷编译功能无法帮助设计师独立完成传统蒙古文字体设计开发。开发一款符合传统蒙古文字造型特点的字体辅
中国经济的快速增长带动了房地产市场规模不断扩大,市场对家具的需求越来越大,家具企业得以快速发展,家具行业的获利水平大大超过其他行业,因而家具行业吸引了大量的资本,行业竞争已进入白热化状态。家居行业的竞争越来越激烈,竞争的方式也越来越多样化,同时,逐渐趋向于中高端家居市场。面对激烈的竞争,中高端家居市场在新的发展战略及投资战略方向的确定方面该如何应对如何选择投资战略并如何实施,成为我国大型企业扩大发