【摘 要】
:
中文唇语识别是富有挑战性的研究课题之一,其目标是通过观察说话者的嘴唇运动变化从而识别出相应的文本内容。由于中文具有丰富性和歧义性等语言特征,且目前没有公开可用的中文唇语数据集,该课题的研究一直处于发展缓慢阶段。近年来,随着神经网络在计算机视觉领域的广泛应用,基于深度学习的唇语识别研究也取得了长足的发展。本文通过自建中文唇语数据集CCTVDS以及对中文构词特征的分析,提出了端到端的中文唇语模型Lip
论文部分内容阅读
中文唇语识别是富有挑战性的研究课题之一,其目标是通过观察说话者的嘴唇运动变化从而识别出相应的文本内容。由于中文具有丰富性和歧义性等语言特征,且目前没有公开可用的中文唇语数据集,该课题的研究一直处于发展缓慢阶段。近年来,随着神经网络在计算机视觉领域的广泛应用,基于深度学习的唇语识别研究也取得了长足的发展。本文通过自建中文唇语数据集CCTVDS以及对中文构词特征的分析,提出了端到端的中文唇语模型Lip CH-Net,实现了由嘴唇序列图片到中文句子的自动识别。Lip CH-Net的训练与优化依赖于图形处理器(Graphics Processing Unit,GPU),对计算能力和存储空间等均有较高的要求,因此暂时停留在理论研究阶段,大规模推广与应用存在困难性。为了实现这一科研成果的转化,彰显唇语模型在智能化大环境下的普适性,可以通过模型压缩算法,使得硬件资源受限的便携式设备能够运载此模型,进而实现该模型在辅助聋哑人交流等方面的实际应用价值。因此,对模型进行有效压缩是实现唇语模型Lip CH-Net普适化应用的前提条件和必要研究。考虑到这一现实问题,本文接着对采用知识蒸馏(Knowledge Distillation,KD)算法通过特征间的学习与拟合以解决模型压缩问题展开了相关探究,并在一定程度上实现了Lip CH-Net的压缩应用。本文按照先研究唇语识别模型理论可行,再研究解决为满足实际应用条件而需要对模型进行压缩这一思路展开,围绕着什么是中文唇语识别、如何搭建唇语模型、以及实现唇语模型压缩的方法进行了逐层探究,并分别获得了相应的研究成果。主要研究内容如下:(1)针对辅助聋哑患者与他人正常交流的问题,提出了中文句子级别的唇语识别模型Lip CH-Net。根据中文的发音规则和构词特征,将中文唇语识别拆分成嘴唇图片到拼音的拼音序列识别和拼音到汉字的汉字序列识别。当这两个子任务分别采用各自的神经网络子模型和优化技巧预训练至收敛后,将它们组合在一起构成端到端的中文唇语识别模型Lip CH-Net,完成图片到汉字序列的训练识别过程。此外,采用半自动化方式自建了包含20495个样本的中文唇语数据集CCTVDS。该工作为以后中文唇语识别相关工作提供了参考基准与数据支持。(2)针对迁移特征单一的问题,提出了基于多特征迁移的离线模型压缩算法MKTN。该算法首先采用互补的目标任务对教师模型进行预训练,使其具有捕捉丰富特征的能力,然后采用互补的对抗损失函数和特征损失函数,指导学生模型分别从图像的空间和像素两个维度拟合来自教师模型的多特征信息,提高对迁移特征的利用率,进而提高学生模型的特征提取能力,使其方便部署的同时也逼近教师模型的表现性能,实现模型压缩的目的。通过在CCTVDS数据集上的验证表明,在生成有效准确率的条件下,MKTN能够一定程度上实现Lip CH-Net的压缩应用,其中压缩率最高可达50%。(3)针对中间层特征相互学习被忽略的问题,提出了基于对抗学习的在线模型压缩算法AMLN。AMLN一方面采用结果驱动算法实现对等模型最终预测分布间的相互拟合,另一方面引入与之互补的过程驱动算法,即采用判别器和对齐容器指导模型中的分块模块分别以对抗学习和像素拟合的方式学习对等网络中相同位置的中间层输出以及最高层的特征分布,提高模型内部特征的利用率以及内部与高层特征之间的交互率,从而加快模型的收敛速度,增强对等模型的鲁棒性与表现性能。对比实验结果表明,在相同压缩率的条件下,AMLN能够进一步优化Lip CH-Net及其简化模型在CCTVDS数据集上的识别准确率。(4)针对决策边界模糊特征被忽略的问题,提出了基于一致性正则化的在线模型压缩算法OKDCR。OKDCR中每个模型均由一个共享的特征提取器和一对任务特定的分类器组成,通过正则化同一模型不同分类器之间以及不同模型相对应分类器之间的输出分布差异来分别度量模型内一致性和模型间一致性,这两类一致性共同用于特征提取器的训练与更新,提高对模糊特征的提取能力;此外,模型内一致性与每个模型的平均输出一起生成最终的集成预测值,指导所有分类器与之进行相互学习,提高对模糊特征的辨别能力。在CCTVDS数据集上的验证表明,OKDCR训练的部分简化模型能够生成与Lip CH-Net相似的识别准确率,为Lip CH-Net嵌入移动便携端以实现普适化应用奠定了理论基础和实验数据支撑。
其他文献
在工业智能化与产业化高度结合的时代,非公路车辆逐步以改善驾驶员工作舒适度及提高工作效率为发展目标,相应的对其转向系统性能提出了更高的要求。驾驶员在长期和高密度的转向操作过程中,直接操控转向控制机构——方向盘,其控制性能直接影响整车工作效率、转向的安全性和驾驶员的舒适性。因此,如何对转向系统的控制系统进行合理构建和改进是提高车辆转向操纵性能的关键技术途径。本研究依托国家重点研发计划项目,在传统负载敏
全球变暖等环境变化问题越来越受到关注,相关机构和科研人员对地表温度的需求也随之增长。地面和低空实测地表温度在同温像元卫星遥感地表温度产品验证、非同温像元辐射方向性等研究领域中发挥了重要作用。但在具有三维结构的非同温场景中,实测地表温度本身也受传感器光谱响应差异、传感器视场中地表辐射方向性差异和空间尺度差异等因素影响,导致多平台地表温度观测结果之间的对比、验证和协同应用等难以进行。本文针对上述主要问
湖泊蒸发对其下风方向站点降水的贡献(即湖泊水汽再循环)是局地水循环的重要组成部分。准确量化湖泊水汽再循环比例,能够促进我们对于地气相互作用的理解,并为区域气候模型中的大气水分收支预测提供独立的验证信息。稳定同位素法是量化湖泊水汽再循环比例的有力工具,但在应用时仍面临一些挑战:(1)缺乏湖泊上风和下风方向站点同步观测的降水同位素数据;(2)采用传统的Keeling曲线法估算湖泊蒸发同位素组成时,仍然
随着工业化和城市化的快速推进,越来越多的有毒有害气体被排放到环境中,导致空气污染问题日益严重。金属氧化物半导体(MOS)基气体传感器因其能够对环境中气体进行检测,而备受关注。由于其制作成本低廉、便于集成、与物联网技术兼容等优点,被广泛应用于气体泄漏预警、室内和室外空气质量监测、医疗诊断、公共安全以及航空航天等领域。然而,目前MOS气体传感器存在着工作温度高、功耗高、选择性差、灵敏度低等问题,这极大
吉林省白城市镇赉县地处吉林省西部,该地区土壤盐渍化严重,是我国典型的碳酸型盐渍土分布区。受气候条件影响,该地区又属于季冻土区,土中孔隙水周期性的冻结与融化使镇赉盐渍土的结构处于动态变化状态。镇赉盐渍土是典型的结构性土,土中结构的不断变化会严重影响土的强度及变形性质。工程上,开挖水渠和边坡等使在原位置已形成较稳定结构的盐渍土暴露在外,应力水平发生了变化,冻融循环作用成为了应力重分布和改造土结构的动力
铝合金具有耐腐蚀性强、轻质高强以及绿色环保等特点,近些年来被广泛应用于桥梁工程和空间结构。铝合金弹性模量低,仅为钢材的31,其结构的稳定性问题较为突出;并且铝合金的应力-应变曲线是非线性的、无屈服平台、以及在屈服点后具有显著应变硬化,其本构关系不能像钢材一样简化为理想弹塑性模型。铝合金本构关系的强非线性,增加了铝合金构件稳定性问题解析求解的难度。另一方面,随着高层建筑和大跨度结构的发展,普通铝合金
阵列天线由于其高增益及灵活的波束形成能力被广泛应用于各种无线电子信息系统。面对日趋复杂的电磁环境,新一代无线电子系统对阵列天线设计提出了更具挑战性的设计要求。传统相控阵天线只能通过调配各辐射单元的激励幅相以调控电磁辐射在空域的分布,无法调控时频域上的电磁辐射分布。因此,传统相控阵天线难以应对日益复杂的电磁环境。另一方面,复杂的电磁环境驱使着无线电子系统朝着雷达、通信、电子对抗等多功能一体化方向发展
能源是人类社会生存、生产和发展的重要物质基础。随着全球人口的急剧增长和世界经济的高速发展,世界气候变暖和能源短缺问题日益突出。因此,清洁可再生能源的利用与开发在推动能源结构转型和实现碳中和方面意义重大。深部地热能因其储量巨大、供应稳定、热品质高等优点具有巨大发展潜力。目前,地热钻井普遍采用常规回转钻进方式,但这种钻进方式存在岩石破碎效率低、钻头磨损严重、钻井周期长和钻井成本高昂等问题,严重制约了深
信息与通信技术的发展加速了社交媒体融入到大众的日常生活中,用户从传统的信息消费者逐渐转变为信息的生产者。用户在社交平台上发布的内容携带着大量的个人情感和观点信息,在虚拟网络中不断传播、发酵,进而影响到现实世界的进程和发展。因此,分析和识别社交数据中潜在的情感信息始终是情感计算和自然语言处理领域的一项重要基础工作。但是通信技术的发展改变了传统社交数据的内容形式,用户发布的内容不再局限于单一的文本信息
空气激光是超快激光诱导的一种新型非线性光学现象,它是以空气中的气体组分作为增益介质,在无谐振腔的条件下产生的远场相干辐射光源。近十几年来,空气激光现象,特别是2011年发现的氮分子离子空气激光,引起了人们广泛的关注。这不仅因为它在远程大气污染物、温室气体检测和原子分子物理研究等方面具有重要的应用价值;也由于引起该现象的光增益机理十分复杂,其中包含了多种物理过程,例如分子电离、能态耦合和量子相干等。