基于深度网络的多模态视频场景分割算法

来源 :武汉轻工大学 | 被引量 : 0次 | 上传用户:BeThinking
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频场景分割是基于内容的视频检索中的重要环节,作为多媒体信息分类与识别的基础,对视频数据的理解发挥着重要作用。其将镜头作为研究的对象,并根据镜头的特征和时间上的关联性将相似的镜头簇划分为同一个场景。传统的视频场景分割方法没有全面考虑视频内容所包含到的语义信息,仅仅是基于视频的底层特征,从而导致场景分割的准确性并不高。Chasanis等人用谱聚类和低层颜色特征聚类,根据以关键帧表示的镜头所属聚类进行标记,使用NW(Needleman-Wunsch)算法从符号序列的对齐分数中检测场景边界。但当两个相邻的场景相似且遵循相同规则时,易造成场景分割错误。Sidiropoulos等人引入了STG(Shot Transition Graph)近似的方法,利用了视觉和听觉通道的特征。但在对视觉特征及听觉特征相近似的镜头进行聚类时并未结合上下文,从而不利于场景的分割。针对使用低层颜色特征聚类、引入STG近似计算镜头相似度及多特征融合的问题,该文根据视频多模态之间时序关联共生的特性,提出了一种基于深度网络的多模态视频场景分割算法。首先,对视频的多模态特征进行提取。不仅从每个镜头中提取视觉、音频、文本等丰富的底层特征,还结合了视觉概念及文本概念所构成的语义概念特征。其次,提出了基于三重深度网络的体系结构,对三重损失的三元组进行选择,并训练合适的卷积神经网络模型。然后将每个镜头特征向量所串联的整体特征向量,作为三重深度网络的输入并进行嵌入空间学习,通过计算两个镜头整体特征向量之间的距离来得到语义相似性的度量值。最后,最小化时间段内距离的平方和对镜头进行聚类处理,最终得到语义层面的场景。实验结果表明,该文算法能对视频场景实现有效地分割,在场景分割精度上具有良好的性能。综合度量指标F值达到86.24%,比Chasanis等人使用底层颜色特征与NW算法相结合的方法提高了12.17%,比Sidiropoulos等人提出在STG中融合视觉及音频特性的方法提高了8.96%,查全率、查准率分别达到85.83%和86.81%。
其他文献
OMS(Operating Management System)是中国移动通信集团公司的网络管理系统项目。其中实时告警功能模块负责将所有新告警消息主动推送到浏览器端,为用户实时呈现当前网络系统
如今,知识产权资源即是经济,知识产权资源已成为一个国家的战略性资源。全球愈来愈重视对知识产权的保护。专利权作为市场竞争利器,企业拥有核心的专利、技术、商业秘密就相当于掌握了核心竞争力。政府的专利资助、专利侵权损害赔偿也为企业带来经济收益。然而,有人却从中看到了不一样的“商机”。专利权能带来诱人的利益,由此催生了一些专门谋划专利侵权诉讼来获利的新兴企业即NPEs(非执业实体No-Practicing
协作中继技术的出现扩大了无线网络覆盖范围,提升了系统吞吐量。蜂窝网边缘用户可以通过中继与基站建立通信连接,两个相距比较远的D2D用户也可以通过中继转发进行通信。中继
人才公寓作为一种过渡性的短时租赁房,对于解决刚进入工作岗位的人才住房问题有着十分重要的作用。住房保障是社会保障的重要组成部分,人才的住房保障利益是否得到维护关乎到
目的本实验通过2种青光眼动物模型:N-甲基-D-天门冬氨酸(NMDA)诱导的C57小鼠和SD大鼠的视网膜兴奋性毒性模型和自发性青光眼DBA小鼠,来探究α-黑素细胞刺激素(α-MSH)对青光眼模型中的视网膜损伤的保护作用,并通过RNA甲基化免疫沉淀测序(Me RIP-seq)探寻α-MSH对视网膜损伤的保护机制。方法C57小鼠随机分为正常对照组、2 m M NMDA组、10 m M NMDA组、20
由于视频可以携带丰富的信息,数字视频在日常生活中的应用越来越广泛。在观看视频时,海量的信息会一同进入视野中,但只有少数是有用的。人类视觉系统一般都会快速地捕捉视频
随着城市化和工业化的发展,中国的空气环境质量不断地恶化。随着汽车工业的快速发展和汽车保有量的快速增长,在人们出行方便的同时,汽车尾气对人类生存的环境也造成了严重的
2018年10月26日,第13届全国人大常委会第六次会议通过了《关于修改<中华人民共和国刑事诉讼法>的决定》。新《刑事诉讼法》第五编规定了刑事缺席审判程序。内容涉及我国刑事缺席审判的适用范围、管辖法院、司法协助、委托辩护、上诉和抗诉等问题。这是我国在立法中第一次明确规定刑事缺席审判程序。由于被告人没有亲自到庭参加诉讼,所以这对其享有的辩护权、对质权等诉讼权利是一种侵害。应当赋予被告人提
近几年,在信息技术迅猛发展的热潮下,在线学习受到了各界广泛的关注。在在线学习的发展进程中,移动在线学习给人们带来了更大的便捷条件,学习者可以不受地点、时间的限制随时
家用机器人使用的一个重要前提是可以室内定位。视觉传感器可以提供丰富的信息,研究基于视觉的家用机器人的定位具有很重要的意义。本文主要基于视觉的家用机器人的定位技术