基于集成学习和迁移学习的电影数据分析预测研究

来源 :沈阳工业大学 | 被引量 : 0次 | 上传用户:a82345678
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着机器学习研究的发展和新成果的出现,越来越多的机器学习算法被广泛应用于日常生活中。目前对于机器学习算法的研究大多基于一些数据集,通过对这些数据集采用合理的数据分析手段挖掘出数据蕴含的信息,这些信息对于一些行业的发展具有一定的参考价值。而电影数据具有数据量大、来源广泛、易于获取等特点,基于此本文以电影数据分析预测问题为背景,研究了基于Stacking的集成学习方法、多源加权Tr Ada Boost的电影评分预测方法和基于领域自适应算法的电影评分预测模型。首先,本文在电影数据预处理与特征工程部分,以IMDB电影数据集为研究对象,开展了特征编码、构造电影综合类型影响指数、导演和演员分级、特征筛选、删除奇异电影样本等研究工作。然后,本文研究了基于Stacking集成学习方法的电影评分预测模型,该模型的基学习器集成了多种单一的机器学习模型。通过实验对比发现,Stacking集成学习模型在预测电影样本评分时相较于单一的机器学习模型可以有效降低预测误差,具有一定优势。接下来,为了解决现实场景中电影数据样本大量缺失电影评分标签而导致不能训练出预测评分效果较好的机器学习模型问题,本文结合迁移学习理论用于模型的评分预测。本文先采用了一种基于实例的多源加权Tr Ada Boost迁移学习方法进行研究,并基于集成学习部分的研究内容将Stacking集成学习模型作为基回归器对电影评分进行预测。同时为了验证多源域迁移学习的实效性,本文进一步开展了多源域迁移、单源域迁移和无迁移的对比研究。基于单源域迁移部分的研究,为了进一步提升模型的电影评分预测性能,本文提出了一种多回归器的多源加权Tr Ada Boost模型,并通过对比研究验证其有效性。最后,本文采用了基于特征的领域自适应迁移学习方法开展研究。在研究中发现,由于目标域电影样本和源域电影样本存在特征维度不一致的问题,因此本文采用了结合降维算法的领域自适应迁移学习模型。同时为了降低模型的电影评分预测误差,本文基于集成学习部分的研究,将Stacking集成学习模型作为回归器。最终通过对比实验,验证了本文研究的领域自适应迁移学习模型具有有效性,能够较好地实现目标域电影样本的评分预测。
其他文献
当下,“数字景观技术”已成为风景园林领域中辅助景观量化研究与实践的重要途径之一。纵观中国近20年间“数字景观技术”的发展历程,以检索出的中国知网收录的15 177篇相关研究论文为基础,对文本数据内在信息进行深入挖掘,将“数字景观技术”的运用与发展总结为兴起期、平稳期和蓬勃期3个阶段,由此对“数字景观技术”研究的区位拓展特征、所适用的热点议题,以及研究发展态势3个方面进行详细探讨,由此总结出我国“数
随着大数据技术的不断发展,客户的需求越来越个性化,客户体验要求越来越高。准确把握以及需求响应的实时性,通过使用大数据和人工智能的技术,对客户进行精准分类和价值预测,从而提供精准服务显得十分必要。为加快烟草工商业互联网+营销数字化转型,广西中烟开展了面向智慧商圈的工商零消大数据分析关键技术研究,通过将“互联网+”前沿技术与卷烟消费场景相结合,借助数据分析建立客户价值预测模型、客户价值体系标签模型、商
股权激励是企业利用利益共享长效机制改善公司治理结构的重要手段,但实操层面不乏高管取得股票后进行股份减持,这种现象备受资本市场的关注并引发诸多争议。文章以大华股份为研究对象,以股价波动、发展能力和EVA变化等为重点,分析其在实施股权激励和员工持股计划后,高管减持对企业产生的影响。研究发现:高管减持并不会抑制企业的长期发展。文章丰富了高管减持方面的研究,为公司治理和投资者决策等提供了相关启示。
‘红铃’是新疆喀什地区莎车县沙枣中的新品种,具有树势较强,干型直立,枝条无刺,果实椭圆形、外观好,果肉口感酸甜、细腻等特征。‘红铃’丰产性强,可食率81.80%,适宜于南疆各地。
<正>在新中国开国元勋中,彭德怀元帅是一个卓立特行,有着鲜明个性特征的伟人。他从旧社会苦难的童工到一名坚强的共产主义战士,从旧军队底层士兵到新中国十大元帅的成长经历,烙印着那个特定历史时期的深刻印记,镌刻着矢志不渝追求理想的奋斗足迹,蕴含着一代叱咤风云、威震敌胆的战将成长成才的规律性特征,具有一定的典型意义。
期刊
<正>核心素养是知识、技能和态度的集合。培养核心素养要从“综合性能力”视角入手,这对教学过程提出了更高要求,如何促进学科研究与实践场景紧密联动,是教师要思考的重要问题。乡土地理可为地理教学提供丰富的“实践场景”,推动地理教学在人地协调观、区域认知、综合思维、地理实践力等核心素养培养上达到新的高度。本文参考《上海教育科研》与《教育研究与实验》刊物中相关文献,通过研究乡土地理资源与地理教学的内在关联,
期刊
目的:随着人工智能、5G、大数据等新基建的不断发展,越来越多的高新科技在医疗中得到了应用,而基于人工智能的机器人技术对现代医疗发展中的应用更是多种多样的,医疗机器人可以应用于医疗工作的各个场景中,其应用可以覆盖患者就医的诊前、诊中、诊后全流程。方法:机器人在医疗行业中的应用可以改变患者原有的就医流程,在诊中可以协助医生开展诊疗工作,医疗机器人的应用是对传统医疗模式的一种补充,机器人在医疗中的应用对
气雾剂和喷雾剂是一类使用方便、应用范围广泛、发展前景广阔的精细化工产品制剂,通过压力装置使液(固)态功效成分分散为分散度高、表面积巨大的细小液滴(颗粒),使功效成分均匀地分布在应用场所的立体空间里或作用对象的表面上以充分发挥其功能效用。本文介绍了气雾剂和喷雾剂的发展历程、产品特性、工作原理、装置构件、关键材料、制备方法和使用注意事项,有选择地介绍了近年来气雾剂和喷雾剂在个人护理、卫生保健、家用清洁
随着我国经济的发展,经济国际化地趋势不断的加强,我国的商事仲裁应适应新形势、更新观念,以适应市场经济的需求。仲裁机构的改革与发展应该进行理论、观念和体制的创新,树立仲裁市场化、服务化、社会化、高效化的观念。进行仲裁政策环境、政府推动方式、战略规划机制、仲裁机构自身建设等全方位的创新。