【摘 要】
:
自动唇读是一种集计算机视觉、人工智能与自然语言处理于一体的综合技术,可以直接从人讲话时的嘴唇动作图像序列中识别讲话内容,是一种新型的人机交互方式。近年来,随着人工
论文部分内容阅读
自动唇读是一种集计算机视觉、人工智能与自然语言处理于一体的综合技术,可以直接从人讲话时的嘴唇动作图像序列中识别讲话内容,是一种新型的人机交互方式。近年来,随着人工智能技术的快速发展,唇语识别技术也越发的更加成熟起来,其网络模型的识别准确率也有着明显的提高。本文利用公开数据集GRID语料库中的视频数据,在GPU平台上搭建了一个固定结构语句的唇语识别系统,固定结构语句中包括命令、颜色、介词、字母、数字以及副词,例如:“Place blue in m one soon”。所有语句都采用这样的结构,该系统是一个句子层面的唇语识别系统。我们采用一种耦合三维卷积神经网络(3D-CNN)和双向长短期记忆网络(Bi-LSTM)相结合的网络架构对输入的连续75张图片数据进行特征提取,同时,为了不对输入的每一帧图片数据和标签数据进行人工对齐操作,我们采用了CTC损失函数作为唇语识别系统的模型训练损失。采用CTC作为损失函数的唇语识别系统模型训练,是一种完全端到端的唇语识别系统模型训练,不需要预先对数据做对齐,只需要一个连续动作的嘴部图像输入序列和一个标签输出序列即可以训练网络模型。本文使用的网络结构较小,用于学习和训练的数据集也不大,唇语识别的准确率在同类方法中有明显的提升,同时本文实现了唇语识别从单个词和单个数字的识别到一个语句、一句话的识别,为自动唇读技术的产品落地做出了有意义的探索,其成果及应用经验很容易扩展到其他设备和智能家居系统中去。
其他文献
油茶属于我国主要木本油料树种之一,以其籽榨取的茶油色清味香,储藏期长,营养价值高,是世界公认的营养丰富和最优质的食用油与保健油,具有很高的经济价值和生态价值。油茶产
具有金属性的微纳米结构器件在现代光学中扮演着重要角色,基于表面等离子激元效应的一系列功能性微纳器件近年来吸引了大量的研究并逐渐获得应用。如何进行高效的金属/介质复合微纳结构制备是其中的关键问题之一。目前大量应用的微纳制造技术如电子束曝光、离子束刻蚀、真空镀膜、气相外延等制作过程需要多道工序配合,制备步骤复杂,容错率低,特别是在制备金属性微纳结构时面临更大挑战。激光直写技术作为近年来热门的微纳制造技
放射性治疗手术是目前治疗前列腺肿瘤一种有效手段。然而,在手术过程中人体的一些生理因素(如呼吸、咳嗽等)会导致前列腺肿瘤的位置发生变化,使得放射源发出的射线无法准确地
MOOC(Massive Open Online Courses,大型开放式在线课程)是一种不同于传统授课方式的新型教学模式,它借助互联网平台,与高校合作,突破时间和空间的限制,面向社会大众开放各类
产品服务系统能够改善制造企业的定价能力和收入模式,提升企业整体的竞争优势,帮助企业在日益增长的全球竞争和以客户为中心的业务环境中实现经营的差异化。制造企业开始重视
网络技术的迅速发展和普及,给人们带来了诸多便利,同时网络安全事件也频频发生。传统网络安全技术例如防火墙、加密和认证等具有静态和被动防守的特点,尚不足以为网络提供全
近年来,随着计算机硬件资源的高速发展,基于深度神经网络的计算机视觉也得到了充分发展。语义分割作为计算机视觉的一个基本任务,可以实现场景感知。全世界约2.53亿的视障人
随着国内经济的快速增长和人民生活水平的提高,国民外出旅游需求不断上涨,旅游消费得到快速释放,旅游业已成为国民经济战略性支柱产业。党的十九大报告指出,我国经济已由高速
目标跟踪是计算机视觉领域中的重要研究方向之一,在视觉SLAM、姿态检测、体感游戏和智能家电等领域有着广泛的应用前景。所谓目标跟踪问题实际上是在连续的视频帧序列中预测
碳纳米管是具有圆柱管状纳米结构的碳的同素异形体,这是一种分子结构独一无二、碳原子间以共价键牢固结合的全新材料。目前全世界正在兴起制备碳纳米管纤维的热潮,主要制备方法有湿法纺丝、阵列纺丝和气相沉积纺丝,其中气相沉积纺丝法设备简单,碳源和催化剂等原料通过载气运输,在高温下迅速发生反应,纺丝速度快。近年来,国内外与碳纳米管纤维相关的文献着重于研究纤维的性能表征,而探究气相沉积反应过程的文章又多倾向于化学