论文部分内容阅读
唇语识别是指根据说话人的唇部动作识别其所说的内容,研究唇语识别对安保监控、司法审判等诸多领域具有重要意义。由于计算机技术的快速发展以及人工唇语识别的局限性,机器唇语识别研究获得了较大的关注,并取得了一定的进展。然而目前的机器唇语识别研究大多是根据唇部动作信息直接识别为相应的说话内容。这种一步到位的唇语识别研究需要直接对文字建模,而文字的数量非常庞大,以中文为例,汉字的数量多达数万,这就需要使用语料覆盖数以万计文字且数量足够多的数据集,才能让模型充分学习到人类说话时的唇部特性,而这种大规模唇语识别数据集正是目前所缺少的资源。另一方面,以这种思路构建的唇语识别模型的可解释性也比较差,当模型效果欠佳时,研究者很难去分析究竟是哪里出现了问题。因此,本课题考虑从唇语的基本单元——“视位”出发去研究唇语识别。由于视位的数量远远少于文字的数量,如果在研究唇语识别的过程中,先识别视位,便可以克服缺少大规模唇语数据集的难题。由于视位和“音位”——语音的基本单元息息相关,且音位可作为视位映射到文本的中间单元,因此本课题研究也引入了音位的概念。本课题针对中文普通话,提出了一种新的基于视位音位映射的中文唇语识别研究思路,并据此设计了分模块的、可局部调节的、具有较强可解释性的中文唇语识别系统。本文的研究内容及创新点如下:(1)本文首次提出基于视位音位映射的中文唇语识别研究体系,并设计了相应的分模块中文唇语识别系统。本课题对该系统中的各个环节进行了深入研究,使用多种算法针对各环节任务设计了不同的模型并进行了实验验证。(2)本文在查阅权威语言学专著后,梳理了相关研究中易混淆的“视位”、“视素”、“音位”、“音素”等名词的定义和解释。(3)本文综合分析了前人研究中各不相同的视位-音位映射关系,总结出一个新的中文视位-音位映射关系。(4)针对视位研究数据集匮乏的问题,本文设计并制作了适用于中文视位研究和基于中文视位的唇语识别研究的数据集。(5)本文对前人研究中的视位识别特征进行了分析比较之后,提出了一组新的视位识别特征,并应用在本课题研究中。