基于视位音位映射的中文唇语识别算法研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:bloodsteven
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
唇语识别是指根据说话人的唇部动作识别其所说的内容,研究唇语识别对安保监控、司法审判等诸多领域具有重要意义。由于计算机技术的快速发展以及人工唇语识别的局限性,机器唇语识别研究获得了较大的关注,并取得了一定的进展。然而目前的机器唇语识别研究大多是根据唇部动作信息直接识别为相应的说话内容。这种一步到位的唇语识别研究需要直接对文字建模,而文字的数量非常庞大,以中文为例,汉字的数量多达数万,这就需要使用语料覆盖数以万计文字且数量足够多的数据集,才能让模型充分学习到人类说话时的唇部特性,而这种大规模唇语识别数据集正是目前所缺少的资源。另一方面,以这种思路构建的唇语识别模型的可解释性也比较差,当模型效果欠佳时,研究者很难去分析究竟是哪里出现了问题。因此,本课题考虑从唇语的基本单元——“视位”出发去研究唇语识别。由于视位的数量远远少于文字的数量,如果在研究唇语识别的过程中,先识别视位,便可以克服缺少大规模唇语数据集的难题。由于视位和“音位”——语音的基本单元息息相关,且音位可作为视位映射到文本的中间单元,因此本课题研究也引入了音位的概念。本课题针对中文普通话,提出了一种新的基于视位音位映射的中文唇语识别研究思路,并据此设计了分模块的、可局部调节的、具有较强可解释性的中文唇语识别系统。本文的研究内容及创新点如下:(1)本文首次提出基于视位音位映射的中文唇语识别研究体系,并设计了相应的分模块中文唇语识别系统。本课题对该系统中的各个环节进行了深入研究,使用多种算法针对各环节任务设计了不同的模型并进行了实验验证。(2)本文在查阅权威语言学专著后,梳理了相关研究中易混淆的“视位”、“视素”、“音位”、“音素”等名词的定义和解释。(3)本文综合分析了前人研究中各不相同的视位-音位映射关系,总结出一个新的中文视位-音位映射关系。(4)针对视位研究数据集匮乏的问题,本文设计并制作了适用于中文视位研究和基于中文视位的唇语识别研究的数据集。(5)本文对前人研究中的视位识别特征进行了分析比较之后,提出了一组新的视位识别特征,并应用在本课题研究中。
其他文献
关键控制点对于食品加工企业产品质量控制而言具有重要意义,《食品质量安全市场准入审查细则》明确要求食品加工企业应该建立严格的关键控制点,并对此设立一定的操作程序和相关指导规划书,通过关键控制点加强对于食品加工的安全与质量管理.但从实际实施效果来看,大多数企业并没有很好地运用该细则,往往只是生搬硬套,缺乏变通,导致质量控制成果并不显著,甚至出现质量失控的情况,本文将对此进行一定的分析与阐述.
作为一种名贵的中药材,天麻在中医药体系中有着重要的地位.随着中医药研究的持续深入,天麻的功效和价值受到了越来越多的肯定,在药品开发和保健品开发过程中,天麻的使用频率也越来越高.从保健的角度来说,科学地利用天麻确实有不错的效果,但是如果出现了误用,所导致的后果也是可怕的,因此在保健食品中应用天麻需要强调适量原则,本文对此进行了讨论与分析.
随着物联网与移动互联网技术的飞速发展,日益增长的随机接入需求与频谱资源稀缺的矛盾为第五代移动通信系统带来了严峻的挑战。稀疏码分多址接入(Sparse Code Multiple Access,SCMA)技术结合多维调制与稀疏扩频技术,显著提升用户数目、提高系统频谱效率。SCMA 系统采用消息传递算法(Message Passing Algorithm,MPA)在接收端进行多用户检测,其计算复杂度随