基于字典学习的图像分类算法及应用研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:gang098
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像分类是模式识别和计算机视觉领域中重要的研究内容之一。对图像分类的研究可以促进网络图像检索、视频监控和图像场景理解等实际应用的发展。图像分类既有静态图像分类,也有动态图像分类。静态图像分类含人脸识别、场景图像分类和图像目标识别等,动态图像分类指视频内容分类。图像分类的精度不仅受提取的特征影响,而且还取决于其采用的分类算法。基于稀疏表示的分类算法(SRC)在人脸识别领域的成功应用,引起了大量从事图像分类研究人员的关注。随着对SRC算法研究的深入,人们意识到字典在其中起着关键性的作用。本论文研究基于字典学习的图像分类。为达到将字典学习方法应用于图像分类系统提高其分类精度的目的,除可通过提升字典本身的判别性外,还可通过将字典学习方法与已有模式识别技术相结合,如特征提取、降维技术和分类器技术等。此外,提高字典学习的计算速度也是亟待解决的问题。本文的主要创新点如下:(1)提出了基于稀疏表示的监督的类特别字典学习(SCSDL)模型。在SCSDL模型中,除表示约束项外,本文提出了系数相异性约束项用于增强学习出字典的判别性。执行分类时,因本文提出的系数相异性约束项在SCSDL模型中的作用,使得重建误差与稀疏系数都具判别性,因此本文提出了一种新的分类机制执行分类。在人脸数据集、场景数据集和图像目标数据集上取得了较高的的分类精度。(2)提出了基于稀疏表示的同时降维和字典学习(SDRDL)模型,将降维投影矩阵和字典学习融合在一个学习框架下。已有的字典学习算法,往往将降维与字典学习分割成两个独立的过程,这样的方式下学习获得的降维投影矩阵与字典并不适配。SDRDL模型学习获得的投影降维矩阵与字典彼此适配,更适合分类任务。SDRDL在人脸数据集和图像目标数据集上的识别结果,优于当今流行的字典学习算法。(3)针对SDRDL模型计算开销过高的问题,提出了基于协同表示的判别性降维投影与字典对学习(DDRPDPL)模型。尽管SRC算法在人脸识别领域取得了巨大成功,而近来的研究提出了基于l2-范数的协同表示分类(CRC)算法。与SRC相比,CRC能得到效率较高的解析解。因此,DDRPDPL模型在更新字典过程中,求解表示系数时,由于采用了基于l2-范数的协同表示,能够直接得到计算效率较高的解析解。实验结果表明,DDRPDPL在图像分类任务上与SDRDL相比,其分类精度相差无几,而计算开销大大减少。(4)提出了支持向量机多类损失驱动的字典学习(SMLDDL)模型。SMLDDL模型学习字典的同时用表示系数学习一个多类支持向量机组,而后支持向量机组通过本文设计的多类损失函数项驱动了字典的学习。因此,SMLDDL可同时学习获得字典与多类支持向量机组。要将SMLDDL模型应用于视频环境下的动作识别,必须提取视频动作特征,为此本文提出了运动改进的Weber特征(MotIWLD)来描述视频动作。SMLDDL模型利用MotIWLD学习一个字典和一个多类支持向量机组,对用MotIWLD特征描述的视频动作进行分类。实验结果证明了本文提出的方法在人脸数据集、场景数据集、图像目标数据集和视频动作数据集上的分类精度优于当今一些流行的方法。
其他文献
近年来,全球的互联网用户数目持续增加,大量的新兴高速数据业务也不断涌现,包括云存储、云计算、高清电视、网络游戏、视频广播、视频会议和云文件共享等。因此学术界和工业界一直在不断探索部署吉比特带宽的网络设施来满足用户需求。无源光网络(Passive Optical Networks,PON)以其大容量、高覆盖、低成本的优势成为接入网中最主要也极具发展前景的解决方案。为了实现PON系统速率继续升级,电信
研究目的本研究旨在通过人体在体实验探索随手术时间延长关节镜术中各因素对人体关节软骨组织结构,基质成分,细胞活性及代谢等方面的影响。材料与方法选取2013年12月至2015年6月期间的10名在上海市第六人民医院运动医学科接受多发韧带重建术并且存在髁间凹狭窄需行髁间凹成形的病例,于手术中不同时间点(0、15、30、45、60分钟)使用自体软骨移植器械于髁间凹外侧壁需行髁间凹成形的区域留取关节软骨标本,
移动终端和数据流量的高速增长推动着移动通信技术的持续发展。到2019年,全球移动数据流量将增长到每月24.3艾字节。目前移动通信网络已经无法满足高速增长的业务需求,因此部署5G通信网络势在必行。5G网络通过三个基本技术来实现性能和效率上的大幅提升:毫米波、大规模天线和异构网络。此外,为了保证安全性,可以考虑在5G网络中应用物理层安全技术。本文以通过MIMO技术提升物理层安全和毫米波通信的性能为目标
通信和信息技术的最新发展为研究人员开启了一个新时代,通过在线提供越来越多的在线服务,如医疗保健,网上银行,购物,公用事业账单支付和游戏等,为人们的生活带来了极大的便利。公共网络用于访问这些服务,这本质上是不安全的。攻击者可以很容易地从公共网络中提取,删除,拦截和修改用户的信息。安全和隐私是这种网络的核心问题。因此,用户的信息以及消息保护是一个关键问题。为了提高安全性,最近的文献已经提出了大量的密码
学位
随着“工业4.0”战略构想的提出,在工业领域构建信息物理融合系统成为必然趋势。而要实现信息与物理的深度融合,就需要用网络将多维异构的计算单元和物理对象集成在一起,从而形成一个网络控制系统。和传统点对点的控制系统相比,网络化系统的设计面对许多新的挑战。首先,当通讯网络的带宽资源有限时,过重的通信负荷会使得系统的控制能力下降。目前,提高网络资源利用率可以采用的比较有前景的两种方法是:数据量化和事件驱动
传统的材料刚度求解方法需要进行一系列标准试验,在实施的过程中需要耗费较多的材料和时间成本。为了提高实验效率并且降低实验成本,本文进行了基于单次实验的刚度参数反演识别方法的研究,通过对实验配置的优化设计,使用单个试件进行单次加载完成对全部刚度参数的同步求解。本文通过结合全场应变测量技术和全局优化算法对基于单次实验的刚度参数反演识别方法进行了优化,对适合进行刚度参数求解的实验类型和处理参数进行了求解,
本文提出了一种由碳纳米管增强复合材料(carbon nanotube reinforced composite,简称CNTRC)和纤维增强复合材料(fiber reinforced composite,简称FRC)构成的混杂层合结构。用碳纳米管替代碳纤维作为复合材料的增强相,在现有的制备工艺技术条件下不失为一种可行的工程应用方案。由于碳纳米管增强复合材料可以在厚度方向梯度排布,因而进一步提高了结构
机器人视觉伺服控制将视觉传感信息引入机器人控制闭环,从控制系统外部感知系统的状态,在视觉空间中描述整个任务,将视觉特征集从初始状态引导至期望状态,从而完成控制目标。无标定视觉伺服在摄像机参数未标定的情况下完成这一过程。现有工作针对各种具体视觉伺服任务提出了不同特征集,达到不同任务效果,也有部分工作提出一般的理论,评价不同特征集的性能。任务可完成是提升其性能的前提,因此需要一般的系统性理论,从视觉伺
形式化验证是计算机科学中的核心课题之一;等价验证是形式化验证中一个主流领域;互模拟等价验证作为等价验证的重要组成部分,起始于上世纪下半叶。互模拟等价验证研究关注的模型大都是无限状态系统,而多数无限状态系统都涵括在一个一般的框架——进程重写系统(Process Rewrite Systems,PRS)中。从上世纪80年代开始,有大量在进程重写系统上互模拟等价验证的工作,主要分成互模拟等价性、互模拟正