音视自适应显著性检测模型的研究

来源 :青岛大学 | 被引量 : 0次 | 上传用户:jefdskvsaklfdsf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人眼注意机制不仅受视觉刺激的影响也取决于音频信号的刺激,现有视频显著性检测算法仅使用视觉信号作为输入信息,很少考虑音频信号对显著性的作用。然而音频信号中包含语义丰富的听觉信息,此信息对显著性具有重要价值。因此,充分利用音频信号中的语义信息辅助基于视觉信息的显著性检测极有意义。不同的音频分类网络,在不同的数据集下训练,将识别不同的音频语义信息。在处理音频信号时由于网络关注的语义信息不同,将产生不同的音频特征。这意味着不同的数据来源会产生不同的特征。由此,为保证音频网络输出特征的完整性,应选取不同数据集训练音频网络,提高网络的泛化能力。音视显著性检测方法采用双流网络结构,音视信号将相互影响导致有益信号的促进作用和无益信号的抑制作用。由于在音视显著性检测中,视频信号起主导作用,音频信号起辅助作用。在音视信号不一致时,双流网络的无效音频信息对视频信息产生负面影响,削弱物体的视觉特征导致显著性预测不够准确。所以,保留对显著性检测起主导作用的视觉信息,对音视融合后的特征进行特征增强,有助于解决上述问题带来的负面影响。此外,定位音频信息和视频信息,两种信息充分交互的方式也至关重要,传统融合方式忽视了特征属性的重要程度,无法实现两种信息的有效融合。因此,需要采取注意机制进行特征融合,实现信息的有效交互。针对上述问题,本文提出两种解决方案:1.提出一种基于共注意力的多流音视显著性检测算法。传统音视显著性检测算法使用单一的音频流和视频流作为输入,但是在不同数据集上预训练的音频网络针对同一数据会产生不同的音频特征。因此选取在不同数据集上预训练的音频网络,通过识别不同的音频信号,可以产生不同的语义信息。该方法基于音视网络模型选取增添额外的音频网络,该网络在大型数据集上训练,能够识别更多音频信号。通过选取在不同数据集上训练过的网络,保证网络提取音频信息的完整性和准确性。另外,音视信息的融合采用传统方式不利于信息交互,学习不到特征间的共性,无法实现特征间的有效融合,该方法采取共注意机制对声源信息和视觉信息进行融合,学习彼此的相关性,使两种信息保持一致。2.提出一种基于视觉信息补偿的多流音视显著性检测算法。在音视信号不一致时,传统双流音视显著性方法导致无关音频信息对视觉信息的削弱,影响视觉信号对显著性的作用。首先,该方法在双流音视网络的基础上增加单独的视频编码分支,保留视频信号中完整的物体外观和运动信息,来改善音频对视频的削弱,增强视频特征的显著性。其次,在弥补视觉信息的过程中,融合策略决定信息补偿的效果。该方法利用特征融合策略将视频编码特征与音视频显著性特征相结合,增强视觉信息的表达,实现音视不一致情况下对视觉信息的补偿。理论分析和实验结果表明,本文方法在音视数据集上超过其他方法,在显著性检测方面具有较好的效果。无论是添加额外的音频分支还是视频编码网络都能提升显著性检测性能,而且融合策略可以使不同的特征向量进行有效交互,增强意义特征属性权重,进而保证特征信息不丢失,补偿音视不同步问题导致的特征削弱问题。
其他文献
2019年新型冠状病毒的爆发给全世界人民的生命健康安全带来了巨大威胁。作为一种新型病毒,其流行病学特征不同于以往的病毒,该病毒不仅具有潜伏期,而且病毒潜伏期内同样具有传播能力,在病毒感染者中还存在大量无症状感染者。为了进一步揭示新型冠状病毒的传播规律,本文进行主要工作如下:首先,本文在经典SEIR模型理论框架的基础上,结合新型冠状病毒的传播特性,引入了无症状感染状态并考虑时间对模型状态转移的影响,
学位
粗糙集是用来对不确定性知识进行分类的一种数学思想,时至今日已经有了全面的发展,其理论成果被用在工业生产、数据处理、医疗教育等诸多方面,并有着良好的应用表现。在相关学者研究下,粗糙集模型延伸出了模糊模型、决策模型、变精度模型等很多不同的分支,拓展了粗糙集理论的应用场合。邻域粗糙集是粗糙集模型的一种改进算法,通过理论引入粒化和邻域空间的概念,使得模型可以适用连续型数据,解决了原模型只能处理离散型变量的
学位
<正>近年来,椒江区白云街道团委积极探索以团支部为龙头、青年之家为依托、青年志愿服务队为基础的“三级联动”体系,打造“云青社”志愿服务品牌,助力志愿服务资源“激活、整合、下沉、共享”,全面构建青年志愿服务网络。团建引领,拓宽志愿服务“延伸面”普及志愿服务理念,引导青年在身体力行中感悟“奉献、友爱、互助、进步”的志愿精神,让志愿服务常态化,使服务群众、
期刊
某型波束控制处理器是应用于某课题的一种故障率较高的控制电路板,其故障定位主要依靠专业人员的经验。针对该模块故障定位准确率不高的问题,提出一种基于ID3决策树算法的故障预测方法。通过对已有的故障定位记录进行梳理,建立特征工程、计算属性分类信息熵、递归建立决策树,得到故障预测的最优决策树模型。实验分析表明,基于ID3决策树的故障预测方法充分发挥了计算机的计算优势和机器学习算法的数据挖掘能力,对故障的分
期刊
硬盘故障所致的数据丢失和损坏给企业和用户带来重大损失,硬盘故障预测也因此引起了学术界和企业界的高度重视,涌现了不少基于机器学习的故障预测方法,但由于存在机器学习算法模型的样本数据差异、性能指标不一致等原因,无法合理评估预测方法的优劣。鉴于此,建立了基于机器学习的硬盘故障检测评估平台,在统一的实验平台中对随机森林、逻辑回归、多层感知神经网络、决策树、朴素贝叶斯、极端梯度提升树、梯度提升决策树和Ada
期刊
随着科技的发展装甲车辆火控系统的技术也在不断迭代更新,现阶段火控系统表现出技术含量更高、结构更加复杂、控制系统更加先进、故障判断更困难等特点。由于火控系统中传感器检测量与故障特征之间、故障特征与维护策略之间是非线性映射关系,直接利用传感器数据难以满足对故障的诊断预测要求。本文基于机器学习开展了对火控系统状态评估与故障预测的研究。将采集的炮控箱信号数据采用灰色关联度分析处理的方法,对状态特征进行提取
学位
区块链技术能够在分散的事务中建立信任,是一种很有前途的资源管理体系结构。区块挖掘参与者,即矿工,成功挖掘区块时会获得奖励。但矿工在挖掘块时需要大量的计算资源解Po W(Proof of Work)问题,这对矿工来说是一个巨大的挑战。鉴于此,本文首先提出了一种基于云的区块链挖掘框架,将矿工的部分密集计算任务卸载到边缘云服务器,减轻矿工的计算负担。但是随着物联网的发展,区块链技术也越来越多地应用在了移
学位
在传输、存储彩色数字图像信息的过程中通常会伴随图像噪声的产生,主要分为加性噪声和乘性噪声。近几年随着对加性噪声的研究逐渐趋于成熟,相关学者开始对乘性噪声进行广泛的研究,且针对彩色图像也提出了相应的去除乘性噪声的模型。但因彩色图像的处理需要考虑层与层之间的耦合关系,故传统去除彩色图像乘性噪声模型在处理含噪声图像时会产生诸多问题,如阶梯效应、边缘模糊不清等。针对传统去除彩色图像噪声模型存在的以上诸多问
学位
碳纤维增强碳化硅复合材料(C/C-SiC)具有低密度、高耐热冲击性和良好的耐磨性等特点,是未来高速重载制动系统的理想摩擦材料。根据高速动车组的制动要求,开展了碳陶制动盘的材料和结构设计。通过化学气相渗透法和反应熔体浸渗法组合工艺制备了全尺寸碳陶制动盘,碳陶材料的强度性能较高、导热系数较高、热膨胀系数较低,力学性能与热物理性能协调关系较好。基于碳陶复合材料的正交各向异性特性,提出了一种适用于碳陶制动
期刊
电梯作为一种和人们日常生活、工作环境密切相关的特种设备,其安全性时刻被人们所关注。随着我国市场经济的快速发展以及电梯相关技术的进步和成熟,我国电梯保有的数量呈现指数增长的变化趋势。大数据与人工智能的发展为电梯行业特别是电梯故障的研究带来了新的机遇,越来越多的研究者和机构开始从大数据、机器学习的角度去分析研究电梯故障相关的问题。总结已有的参考文献,本文基于不平衡的电梯数据集,创新性地采用机器学习算法
学位