论文部分内容阅读
随着数字媒体技术的不断发展,人们的多媒体信息也变得日益丰富。与此同时,一个显著的问题是,如何有效的管理这些多媒体资源。近年来,国内外对此已有一些初步的研究,但大都不太系统,在实际应用过程中也有很多问题。针对于此,本文探讨了通过图像内容理解的方式对图片进行分类管理的方法。具体将从以下几部分展开:图像的场景分析、特定目标识别中特征学习的有效方法探究(以人脸识别到人脸验证的迁移为例)、特征搜索算法设计优化与实现等。对于面向图像自动管理的场景分析部分,本文首先分析了原始图像分类中单类别分类的目标局限性,在此基础上提出了一种适应于日常生活照片的多标签场景分类网络。其次,分类网络的基模型采用一个计算精简,移动端友好的Shufflenet网络作为基础结构,避免了常见网络分类需要在服务器部署,并由网络传输等带来的一系列包括但不限于数据隐私,网络延迟、模型过大的存储等问题。再次,作为对基础网络的一个优化,引入了注意力模型,通过深度卷积网络通道上的加权使分类模型对数据有更好的适应性。此外,对于损失函数,考虑到多标签分类网络中正负标签比例不均衡的情况,设计了一个均衡的二元交叉熵损失函数,以对数据更好的建模。最后,本文也实现了在iOS系统上的实时场景分类演示。在iOS系统上的实时演示结果表明,本方案是一个具有巨大应用价值的方法,值得推广。对于面向图像自动管理的特定目标(人脸)识别部分,本文创新性的提出了带约束的基于人脸识别模型的网络训练方法。其中约束项充分考虑了类内紧致,类间具有足够区分度的性质,以及减少了特征学习过程中的冗余性。与此同时,考虑到网络获取的图片类别标注噪声问题,引入了基于径向基函数的距离加权。实验证明虽然训练过程采用分类器模式,由于加入了约束项作为先验知识,特征也能很好的迁移到人脸验证任务上,并不需要显示的动用对验证进行独特优化的度量学习方法,并且具有收敛速度快的特点。同时由于这些约束项只在训练过程中引入,在实际测试过程中并不会引入运行时负担,具有很好的时间性能。对于面向图像自动管理的高效搜索部分,本文引入了两种近似搜索算法——基于分段矢量量化的近似搜索算法和基于倒排序表的近似搜索算法。这两种算法分别适用于内存有限的情况和对速度要求较高的情况,可以适用于不同的应用场景需求。同时,本文针对原始工程实现中不完善的地方进行了优化和完善,使得搜索效率进一步提高。