基于文本挖掘的视频标签生成及视频分类研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:guodong0810
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息技术高速发展的时代,人们获取信息的途径正在逐渐从报纸、广播、电视等传统媒体向互联网上的多媒体数据转移。加之手机、iPad等移动电子设备的广泛使用,网络上的视频、音乐、文字等数据已经成为人们获取、存储信息的重要来源。由于网络资源规模的迅速增长,导致视频数据量十分庞大。如果不将这些视频数据进行有效的整理,无论是用户想快速获取数据,还是资源管理者想处理这些信息,都将变得十分困难。因此,通过对视频资源进行分类整理,构建结构化的数据库,将极大地提高互联网用户获取自己所需视频资源的速率,并且能帮助资源管理者高效率地分析、处理视频数据,从中分析用户的行为以及喜好,挖掘出更多的商业价值。视频分类方法主要分为两大类。一类是基于图像特征,通过分析关键帧的图像性质来对视频进行分类的方法。研究发现这类方法时间、空间成本高,并且受图像质量影响,其局限性大、效率低。另一类是基于文本挖掘,通过分析视频的文本信息来将视频进行分类的方法。用于挖掘的语料主要来自于视频的基本描述、用户所贡献的标签以及评论等信息。由于文本数据处理的效率相对较高,技术相对成熟,因此,基于文本挖掘的视频分类方法具有可行性以及研究价值。本文主要研究以下几方面内容:(1)通过对视频推荐的特征和需求进行分析,发现运用视频分类与视频标签对于优化推荐效果的可行性。从文本挖掘的角度和层面来构建视频分类模型,主要包括数据采集、文本预处理、特征空间降维、分类器训练、分类器评估等环节。(2)重点研究文本挖掘的关键环节:特征空间降维和分类器训练。特征项评估函数和分类模型直接决定了特征项空间的构成,影响最后分类的效果。本文基于已有的文本挖掘理论,提出了一种TCD(Term Category Discrimination)特征评估方法。并基于χ~2统计和概率调整技术,对朴素贝叶斯的先验概率计算进行了改进,并通过实验验证改进后的分类模型具有更准确的分类效果。(3)基于朴素贝叶斯的后验概率以及分类结果,重新设计视频相似度的计算方式。以TCD特征评估函数值与TFIDF值相结合的方法,给视频打上标签。并将两者同时应用于视频推荐策略中。(4)在已完成视频分类的基础上,设计视频推荐系统。根据用户的观影行为,将视频标签转换成用户标签,基于计算好的视频相似度和用户标签,设定多种推荐策略。并对推荐接口的功能、后台数据、推荐效果、系统性能进行测试,将基于文本挖掘的视频分类应用于视频推荐,能够优化推荐效果、提高推荐效率。
其他文献
创客是指能够发现创意并且也能够将创意转化为现实产品的一类人,这是一类特殊的人才,但是又普遍存在社会各行业。创客教育简而言之是指培养“创客”教育,实质是一种高层次的
当前,智能电网以实现精确供能、对应供能和互补供能的思想来提高电力系统在能源转换效率、电能利用率、供电质量和可靠性,以安全、清洁、经济、低碳、环保、电网与用户友好互
为了解上海滴水湖重金属污染特征及其生态风险,以该湖及其引水河道10个采样点的表层沉积物为研究对象,用原子吸收分光光度法测定Cu、Cd、Pb、Zn、Cr、Hg、As 7种重金属质量比
目的探讨急性时相蛋白与小儿脓毒症预后及危重评分的关系。方法选入50例脓毒症患儿于入院1d检测急性时相蛋白。结果血清转铁蛋白、前白蛋白与危重评分呈正相关,血浆C反应蛋白
介词(preposition简写prep)是汉语语法系统的一个重要组成部分。从词义上看,介词属于虚词类,并无实际含义,仅能够从语法的角度进行分析。从作用上看,介词是前置词,用来表示名
在分析现有的机上电缆测试弊端的基础上,提出了机上电缆自动测试技术引入的必要性;重点描述了实现该自动测试技术的系统构成和软件实现,包括系统框架及各部分功能、软件数据
粗老茶中的多糖含量及其保健作用汪东风,谢晓凤,王泽农,杨敏,张阳春(安徽农业大学茶业系合肥1230036)(安徽中医学院附属医院合肥230036)关键词:粗老茶,多糖,降血糖,免疫作用Keywords:Coarsetea;Polysaccharide...更多还原
车载点云数据的自动分类与提取是进行城市三维建模的基础和关键步骤。文章利用国产SSW车载激光建模测量系统获取的点云数据丰富的底层信息(点云基于激光扫描坐标系的坐标、相
通过"中介"理念的相对性、互给性、历时性与多价性出发看待建筑风格的控制问题,将有助于我们从分析的视角及控制策略等方面把握其主要特点。东钱湖地区建筑风格控制主要从其建