【摘 要】
:
人类在复杂场景中可以快速地辨识感兴趣的区域,进而完成对场景的理解,这是由人类视觉系统存在的视觉注意机制完成的。视觉信息主要来源于接收到的图像或视频数据信息,当注视
论文部分内容阅读
人类在复杂场景中可以快速地辨识感兴趣的区域,进而完成对场景的理解,这是由人类视觉系统存在的视觉注意机制完成的。视觉信息主要来源于接收到的图像或视频数据信息,当注视一幅图片时人眼更容易定位到刺激视觉的区域,这些区域即为显著区域。在计算机视觉任务中引入人类的视觉注意力机制,可以有效提高数据筛选效率和计算效率。视频显著区域提取是通过模拟人类的视觉注意力机制,迅速定位并提取视频图像中的感兴趣区域,并应用于其他复杂场景任务中,如视频压缩,视频分割和视频质量评价等。近些年的研究表明,深度学习技术在分类、目标检测等图像处理任务中,有着不错的性能表现,这源于深度学习的多层线性映射可以有效地区分复杂特征,并提取更适用于目标任务的特征用于后续处理。而过去传统的方法主要通过人工选取特征,选取到的特征不够匹配目标任务,这限制了当前研究进展。因此,深度学习的应用将极大推进显著区域提取的发展。通过对显著性区域提取这一课题的发展梳理和前沿技术研究,本文提出了两种基于深度学习的视频显著区域提取模型。首先提出一种由全局特征提取到细化特征提取的算法,通过双流网络实现对视频帧图像和光流图中的全局信息提取,递归卷积网络实现对输入的视频图像中的细节信息的采集。通过网络级联的方式将学习到的全局特征和细化特征融合,从而实现端到端的视频显著区域提取。其次,针对可用于神经网络训练的视频显著区域标注样本集较少的问题,采用条件生成对抗网络的原理,在已经提出的基于全局特征和细化特征融合的算法基础上,增加判别网络结构,实现对于显著性预测图和真实显著标记图的二分类任务,从而在生成网络与判别网络的对抗过程中,帮助生成网络走出过拟合并学习到更细节的内容。在本文采用的条件生成对抗式结构中,生成网络的损失函数创新性地结合了内容损失函数,计算显著性预测图与真实显著标记图的交叉熵。在对抗过程中,帮助生成网络生成与真实显著标记图差异更小,更容易被判别网络分类为真的显著性图。本文采用的是在显著性检测领域中公认的三种评价指标,准确率-召回率曲线,F-measure值和AUC分数,从定性和定量两个方面进行模型评估,先对基于CNN算法提出的网络结构垂直分析网络性能,分别对全局网络部分和优化网络的各个递归环部分的输出结果进行对比评估,融合了优化特征后网络的输出结果准确率提升了10.76%。再分析基于CGAN算法的性能,发现通过条件生成对抗网络博弈学习到的网络的性能明显好于仅仅通过交叉熵损失函数训练得到的生成网络,准确率提升了15.24%。再将本文提出的两个方法和学术界公开的六种表现良好的基准方法对比,评估模型的优劣,经验证本文提出的两种算法都得到良好的预测结果,其中融合全局和细节特征的算法,准确率达到86.96%,召回率达到86.72%。
其他文献
近年来,机器学习技术与传统的通信技术有了更多的交集。现代的通信系统在运行过程中会产生大量的数据,将其与先进的机器学习技术结合能够显著提升网络的性能并优化通信组件的设计和管理。在这一领域,最近提出了一种利用端到端训练对通信系统组件进行联合优化的方法。本文利用这一思想,对单载波频域均衡(SC-FDE)系统进行信道估计与信号检测。本文主要工作如下:(1)首先,针对单天线SC-FDE系统,利用深度学习网络
目的1.描述妇科癌症患者和配偶的心理资源(包括正念、心理灵活性)与负性情绪(包括抑郁、焦虑情绪)状况;2.探索妇科癌症患者和配偶正念、心理灵活性对抑郁情绪、焦虑情绪的二
卷积神经网络(Convolutional Neural Networks,CNN)近年来在图像分类、目标检测、视频语义分析等领域取得了突破性的进展,其强大的特征学习与分类能力得到广泛的关注。由于卷
近年来,世界发生着翻天覆地的变化,科技人才和科研成果创新成为了推动着社会进步、百姓富裕、国家繁荣昌盛的最重要力量,也是国家在未来国际关系中决胜的关键。过去对于科研成果的评价体系中,主要是以情报人员、研究人员和专家学者为主导进行评价总结,使得评价结果不够准确和客观,专家人工筛选所有资源和研究成果的工作量非常巨大,成本很高。通过梳理近几年来对于科学论文重要性评估的评判标准,发现大部分的分析方法是利用科
分类是机器学习和模式识别领域的经典问题之一。对有监督分类任务,分类器从训练样本中学习知识,并调整自己的行为来实现更好的分类表现。许多经典的方法被提出用于解决分类问题,例如支持向量机、神经网络、贝叶斯分类器、决策树等。在这些方法中,神经网络凭借其易于构建和优异的近似能力,被广泛的应用于分类任务中。神经网络的分类过程可以从几何角度被解释。在分类过程中,神经网络将待分类样本从原始的数据空间映射到一个新的
随着互联网技术的飞速进步,全球信息时代得以快速发展,各种新闻数据急剧增加,其中隐含着大量信息和资源;同时很多发展中国家的网络用户快速增长,使得互联网上各种语言的文本数据持续增加。在这种全球化形式下,仅仅获取本国的新闻信息已远远不能满足一个国家或一个大型企业机构在国际地位的需要。跨语言文本的信息组织是一个不可忽视的问题,而单语文本聚类方法几乎不能满足实际需求,因而双语或者跨语言的文本聚类成为了人们研
随着科学技术的进步,许多学科领域对高算力有着无限的渴望,比如深度学习、大气及洋流的模拟仿真、计算化学、空气动力学等等无不依赖多处理器计算机。随着多处理器计算机处理器数量的不断增加,其互连网络构架的收益已经远远高于设计新处理器的收益。具有复杂互连网络结构的多处理器计算机系统维持其可用性的关键环节是互连网络的系统级故障诊断。在系统级故障诊断的研究中,学者们发掘出了诸多诊断模型,但性能优良的诊断算法并不
目的:探讨结肠癌转移相关基因(metastasis-associated in colon cancer-1,MACC1)蛋白表达与胃癌临床病理的相关性。方法:检索英文数据库:PubMed、Embase、Cochrane Library、web of science和中文数据库CNKI、VIP、WanFang Data,采用文献追溯以及手工检索等方式搜集所有关于MACC1蛋白表达与胃癌临床病理学参
研究背景心力衰竭是由于各种心脏结构和/或功能性疾病导致心室收缩和/或舒张功能障碍,即心室射血和/或充盈能力受损的一组复杂临床综合征,主要临床表现为呼吸困难、疲乏(体力
多元化的宽带互联网通信业务,如高清视频点播(HD)、视频通话、远程医疗、电子商务、在线游戏、虚拟现实(VR)、无人驾驶等,已经完全融入大众的日常生活。人们对数据传输速率的需求呈爆发性增长。这些不同网络环境中的数据通信的需求增长将推动整个光通信系统基础的物理层的带宽需求呈爆炸性增长。由于高速率的光纤通信系统存在接收光信噪比(OSNR)和光纤非线性效应的限制。近年来,可在有限光信噪比条件下,提高信道容