论文部分内容阅读
在信息技术高速发展的时代,人们获取信息的途径正在逐渐从报纸、广播、电视等传统媒体向互联网上的多媒体数据转移。加之手机、iPad等移动电子设备的广泛使用,网络上的视频、音乐、文字等数据已经成为人们获取、存储信息的重要来源。由于网络资源规模的迅速增长,导致视频数据量十分庞大。如果不将这些视频数据进行有效的整理,无论是用户想快速获取数据,还是资源管理者想处理这些信息,都将变得十分困难。因此,通过对视频资源进行分类整理,构建结构化的数据库,将极大地提高互联网用户获取自己所需视频资源的速率,并且能帮助资源管理者高效率地分析、处理视频数据,从中分析用户的行为以及喜好,挖掘出更多的商业价值。视频分类方法主要分为两大类。一类是基于图像特征,通过分析关键帧的图像性质来对视频进行分类的方法。研究发现这类方法时间、空间成本高,并且受图像质量影响,其局限性大、效率低。另一类是基于文本挖掘,通过分析视频的文本信息来将视频进行分类的方法。用于挖掘的语料主要来自于视频的基本描述、用户所贡献的标签以及评论等信息。由于文本数据处理的效率相对较高,技术相对成熟,因此,基于文本挖掘的视频分类方法具有可行性以及研究价值。本文主要研究以下几方面内容:(1)通过对视频推荐的特征和需求进行分析,发现运用视频分类与视频标签对于优化推荐效果的可行性。从文本挖掘的角度和层面来构建视频分类模型,主要包括数据采集、文本预处理、特征空间降维、分类器训练、分类器评估等环节。(2)重点研究文本挖掘的关键环节:特征空间降维和分类器训练。特征项评估函数和分类模型直接决定了特征项空间的构成,影响最后分类的效果。本文基于已有的文本挖掘理论,提出了一种TCD(Term Category Discrimination)特征评估方法。并基于χ~2统计和概率调整技术,对朴素贝叶斯的先验概率计算进行了改进,并通过实验验证改进后的分类模型具有更准确的分类效果。(3)基于朴素贝叶斯的后验概率以及分类结果,重新设计视频相似度的计算方式。以TCD特征评估函数值与TFIDF值相结合的方法,给视频打上标签。并将两者同时应用于视频推荐策略中。(4)在已完成视频分类的基础上,设计视频推荐系统。根据用户的观影行为,将视频标签转换成用户标签,基于计算好的视频相似度和用户标签,设定多种推荐策略。并对推荐接口的功能、后台数据、推荐效果、系统性能进行测试,将基于文本挖掘的视频分类应用于视频推荐,能够优化推荐效果、提高推荐效率。