论文部分内容阅读
通过分析声音使得设备能够理解设备所处环境是机器听觉研究领域的主要目标,机器听觉是一个涉及到计算听觉场景分析的研究领域。机器听觉系统需要执行与人类听觉系统类似的处理任务,是诸如机器学习,机器人技术和人工智能等相关领域的更广泛的研究主题中的一部分。声音场景分类问题,是从属计算听觉场景分析的一个子问题,也是其中最困难的任务之一。人类可以感知到自身所在的声音场景,如繁忙的街道,办公室等,并能够识别其中的独立声音事件,如汽车经过,脚步声等。声音场景分类任务的目的之一就是要模拟人类分辨声音场景的能力:给定一段音频,对音频所记录描述的声音场景进行分类。可穿戴智能设备、智能家居日益融入到人们的日常生活中,通过声音感知环境可以让这些设备更智能地服务于人,因此声音场景分类问题也受到越来越多的关注。对于声音场景分类问题的研究,本文设计了一系列深度学习模型包括卷积神经网络,递归神经网络,双线性模型以及胶囊网络模型,其中基于注意力机制的卷积神经网络模型,平均分类准确率达到87.9%,与声音场景分类研究领域的大规模挑战赛DCASE2016所有提交的结果相比,在单模型上优于最好成绩86.4%,是在声音场景分类问题中,注意力机制的首次尝试。为了进一步开发利用深度学习方法的优势,利用超大数据集预训练模型,运用迁移学习技术,弥补声音场景分类领域训练样本不足的缺陷,在注意力机制模型的基础上设计了基于迁移学习的深度卷积神经网络模型,准确率达到90.3%,超过DCASE2016挑战赛第一名(89.7%)。