【摘 要】
:
随着深度学习及人工智能的发展,唇语识别技术在计算机视觉及人机交互领域有着深厚的发展前景与应用需求。尤其是在利用自动唇部识别技术来改善听力障碍者和发音障碍者的社交互动方面,更是人工智能在医疗保健和康复中最有前途的应用之一。所谓唇语识别技术就是通过嘴唇视觉图像的动态变化来识别主要人物表达的内容。当前阶段,唇语识别技术主要停留在对算法以及计算机性能的研究上,很少将其真正的运用到实际生活场景中。因此,本研
论文部分内容阅读
随着深度学习及人工智能的发展,唇语识别技术在计算机视觉及人机交互领域有着深厚的发展前景与应用需求。尤其是在利用自动唇部识别技术来改善听力障碍者和发音障碍者的社交互动方面,更是人工智能在医疗保健和康复中最有前途的应用之一。所谓唇语识别技术就是通过嘴唇视觉图像的动态变化来识别主要人物表达的内容。当前阶段,唇语识别技术主要停留在对算法以及计算机性能的研究上,很少将其真正的运用到实际生活场景中。因此,本研究聚焦研究基于深度学习的唇语识别应用系统,即针对听障人士的语言矫正系统,更加具有实际意义,旨在为未来自动唇读识别技术更加落地化奠定基础。本文主要运用ResNet-50残差网络结构对手势语言进行识别,运用MobileNet轻量级网络与LSTM网络相结合的方式对发音者的唇读时序序列进行识别,并构建唇形相似度匹配系统,以手语识别作为媒介来辅助听障人士学习正确的嘴唇发音序列图像,矫正口型。具体研究内容如下:对视频处理算法的研究:本文提出并设计了一种半随机抽取视频帧策略来提取人脸序列图像。使用Dlib库中的人脸68关键点检测法定位嘴唇区域。然后根据嘴唇各个方向边界的关键点精确定位与分割出感兴趣的嘴唇区域,从而减少后续计算中的冗余信息。基于ResNet-50网络结构的手势图像特征提取的研究:由于手部区域图像较大,细节特征较少,因而本文采用ResNet-50网络结构来提取手语特征,该网络结构良好的应用了计算残差这一方式,减少了常规特征提取方法中所需参数的数量,缩短了应用系统的运行时间。基于MobileNet与LSTM融合的嘴唇视频序列图像特征提取的研究:依赖于CNN在图像特征提取方面的强大能力,以及RNN在处理时序特征时的实用性,本文选取MobileNet网络与LSTM相结合的方式,不仅能有效的提取出嘴唇发音视频图像的序列特征,还能再保证识别准确度的同时,极大程度的降低所需要的参数数目。具有界面功能的唇读识别及矫正应用系统研究:根据听力残障人士的实际应用需求,设计出唇读序列比对系统,结合手语识别结果,给出使用者正确的唇读序列及自身唇读序列之间的差异化数值,并搭建一个可操作的系统界面,以供其进行使用、学习和矫正。
其他文献
国内外研究发现将生物体非光滑表面织构形态应用于现代制造工艺中,能提升材料减摩耐磨性能。在刀具切削领域,选择合适形貌及参数的微织构制备于刀具表面,可以提升刀具切削性能,减缓刀具磨损。本文基于现有的刀具表面微织构研究成果,将微织构应用于超硬材料刀具,采用有限元仿真和车削实验的方法,综合研究微织构形貌及参数对刀具切削性能的影响,分析刀具表面微织构的减摩抗粘机理。本文主要研究内容如下:建立不同形貌的超硬材
铁路事业的飞速发展带来了日益繁密的铁路网络,列车的安全运行也显得尤为重要。列车在行车的过程中,偶尔会由于异物侵入铁路周界而被迫停运甚至引发巨大事故,这对人民的生命和财产安全造成了极大的威胁。因此,如何实现快速有效的铁路异物侵限检测、防止铁路交通事故的发生成为了研究热点。研究者们将深度学习和计算机视觉理论应用于铁路异物侵限检测,取得了丰富的研究成果。但该领域成果大多针对于白天RGB图像所得到,针对夜
近年来,教育行业涌现出一批旨在培养中小学生创造能力的校外教育机构。大多是照搬国外现成的机器人产品,再或是将国外已有的理论成果引进国内市场。优点是在国内传统教育模式中开辟了一条独特的道路。但大多理论薄弱,内容浅显,盈利至上。不难发现,现有关注中学生创新思维发展的相关文献甚少。并且在有限的相关文献中,大部分是基于教育学理论的角度着手,探讨如何通过提升教师能力或教育氛围的方法来促进我国素质教育,真切实际
在空间环境中,液态合金处于热力学亚稳态,这非常有助于研究深过冷熔体的材料结构和热物理性质。受限于成本技术等原因,研究者通过构建静电悬浮结合落管装置模拟空间环境,同时使用高速摄像机捕捉深过冷熔体的下落图像,以研究其熔凝过程。但由于图像获取设备曝光时间等硬件限制,拍摄到的深过冷熔体图像分辨率较低,不利于进一步研究其热物性和凝固界面等性质。使用超分辨重建等软件设计方式可以更准确重构图像轮廓信息,有效提升
缺陷的产生是光刻工艺中不可避免的,主要包括光刻材料的物理特性和工艺因素引入的各种缺陷,以及随着特征尺寸不断缩小而使实设计与制造不完全匹配引入的成像缺陷等,在一定程度制约着芯片制造业的发展。目前随着集成电路进入亚纳米技术节点,可识别的最小缺陷越来越精细,这给光学和电子束缺陷检测系统带来了挑战。缺陷是芯片良率的主要影响因素之一,本研究涉及的缺陷包括固体残留、坍塌、水渍污染。这些缺陷特征跨度大,对设备的
激光雷达能够采集场景的3D点云数据,可快速、准确的得到被测量物体的深度及重建目标物体的几何模型,而光学相机可对场景采集具有丰富细节的高清晰度2D可见光图像数据。激光点云与可见光图像的融合能够结合二者的优势,使只能表现物体轮廓的3D点云数据具有真实的颜色,大大提升可视性,在三维场景重建、环境交互等领域中发挥了重大作用,从而促进云景观、娱乐交互、自动驾驶以及无人设备等领域的发展。为了标定设备以及提高精
城市化进程的不断加快,使得城市用地越来越紧张,且随着大量工业化建筑的急剧增加,生态系统被破坏,环境恶化,能源短缺,城市公共空间缺失等问题随之出现,人类面临着严峻的生存危机。在此背景下,人们把追求生态环境效益作为城市设计的主要目标,巧妙的利用和顺应自然环境、与大自然密切联系着的覆土建筑逐渐成为推动生态建设的一股中坚力量。覆土建筑从古代的穴居到近代的窑洞,再到当代的公共建筑,其适用范围越来越大。因此,
通过分析唇部动态识别出说话者的表达内容是唇语识别的基本目的,其在人机交互领域是广受关注的研究项目。由于传统唇语识别模型具有速度慢,训练难度大的特点,在基于不同场景的唇语识别技术上需要大量的人工设计与经验性处理。所以本文选择基于深度学习建立唇语识别模型,但是在资源紧凑的设备上,大部分性能优异的卷积神经网络都无法展示自己的高效识别能力。因此,卷积神经网络的压缩与加速成为众多学者的热门研究课题,经过网络
水下鱼类识别在合理开发渔业资源,维持生态平衡等方面有大量的应用需求,开展水下鱼类识别的研究具有广阔前景。然而受限于鱼类数据集规模通常较小、鱼类特征复杂等因素,使用既有鱼类识别方法获得的结果往往存在识别精度不高、检测速度慢的问题。为解决上述鱼类识别挑战,本文对比分析了目标检测算法的网络架构,基于深度学习技术设计了两种方法,并通过对比实验验证了模型的有效性。本文的主要研究内容如下:针对如何提升水下鱼类
随着近年来伺服技术的不断改进,多轴同步系统的应用越来越广,充分考虑刚度、阻尼和质量等影响机械系统动态性能的因素,建立一个高精度的电火花龙门式机床多轴同步系统,对电火花机床等数控设备的开发与生产具有重要意义。面对目前多轴同步控制存在的同步性能差,易因外界扰动失去其稳定性等缺陷,本文针对电火花加工龙门式机床,根据其电加工摇动、平动以及Z轴多次往复的加工特点,对机床的X、Y、Z轴均采用双轴同步控制,通过