论文部分内容阅读
随着智能终端的发展和普及,越来越多的视频软件成为当前内容传播与媒体社交的新宠。人们的视线逐渐从电视转移到社交平台或视频软件中,通过这些视频软件获取自己想要的内容。此外,由于视频播放器行业竞争的不断加剧,大型企业间的并购整合与资本运作日趋频繁,国内外优秀的视频软件开发商愈来愈重视对行业市场的分析研究,特别是对当前市场环境和客户需求趋势变化的深入研究,以期提前占领市场,取得先发优势。我们的研究主要是从开发者的角度,探索可以影响用户选择视频软件的因素,并通过对这些因素的分析,给生产者一定的启发和建设性意见。基于此,本文还将通过一些较先进的分类算法,如支持向量机、决策树、梯度提升树和随机森林算法等,研究用户对视频软件不同受欢迎度的分类对比,并结合LDA主题模型探索用户的关注点,面向视频软件受欢迎度的实际应用和效果做出分析。文章的研究内容如下:首先,我们通过用户对视频软件的评论信息,利用LDA主题模型对其中的内容进行探索分析,了解用户在选择和使用视频软件时主要关注什么;其次,通过对这些关注点的分析判断进行特征选择,找到可以提高分类模型的分类能力和可解释性的特征,并且对这些特征进行描述性统计分析,从而发现不同的特征对用户喜爱程度的影响差异;最后,把目标变量设置为受欢迎度高、比较受欢迎和受欢迎度低,将得到的数据进行归一化处理后分为训练集和测试集,输入到不同的机器学习分类器中,通过对不同分类算法的训练,得到相应的预测结果,进而对不同的分类算法进行对比分析。本文采用了LDA主题模型寻找用户关注点,从这些关注主题中分析研究的变量并进行特征选取。相较于前人仅对LDA主题模型进行建模分析,或者通过理论手段、主观判断等进行特征选取而言,本模型中利用用户的反馈信息提取特征,更能体现观测到产品的优缺点,使得结果更具有可解释性。