论文部分内容阅读
随着数十年数据、硬件、理论、技术为科技闭环的飞速发展,人机智能交互朝着更加智能、便捷、自然的方式不断发展。特征提取算法作为人机交互领域发展的基石,在本质上决定了机器感受客观世界的能力。唇读任务作为人机交互领域最具挑战的课题之一,旨在通过观察说话人的唇部动作获得说话内容。特征提取模型在唇读任务具有非常重要的研究价值,在源头上决定了唇读模型整体性能的上限。为了促进唇读的工业落地,提高唇读模型的性能就显得尤为重要,其中对模型性能最重要的模块就是提取唇部特征的特征提取算法。分析唇读特征提取模型的发展历史,挖掘唇读特征的空间、时序特性,立足于当前特征提取模型进行研究。唇读任务具有整体协同的空间强相关性,仅仅依靠局部特征的累积无法更好地进行表征这种特性,本文提出全局特征,通过全局特征和局部特征的相互传播来增强局部特征之间的联系,达到整体协同的目的。唇读任务同样具有强时序性,具体表现在连续发音、中文同音字等现象。本文引入光流思想来提取唇读时序特征,意在增强整体特征的时序性。由于时序结构和原有网络存在异构的问题,多特征融合的问题随之产生。本文最后比较了三种多特征融合算法,选取最优性能的算法作为多特征融合算法。为了验证本文三个改进点的有效性,最终的融合架构分别与局部特征复用的ResNet增强版本DenseNet、引入光流空间增强唇读特征时序性的双流网络进行比较,本文中的融合架构获得了更加优秀的性能。这也从结果上证明了唇读特征具有强相关的空间性和时序性,本文提出的模型也能更好地表征唇读特征。