论文部分内容阅读
眼睛是人类获取信息和感知外部世界最重要的方式之一,它可以从外部世界获取大约83%的信息,眼睛的运动状态反映了人的视觉注意力,通过眼睛可以分析人的意图,了解人的行为。眼动跟踪技术是通过提取眼睛相关信息来捕捉人眼的运动状态,进而能够分析出人的注意力、意图等的一项技术,是推断人类注意力的重要线索。近几年,眼动跟踪技术快速发展,已经成为计算机视觉领域一个重要的研究课题。目前,汽车的数量越来越多,道路拥挤越来越严重,交通事故发生率越来越高,造成大量的人员伤亡和巨大的经济损失。有关资料显示,驾驶员在驾驶过程中注意力不集中的行为是导致交通事故发生的主要原因。而通过对眼动行为的跟踪,可以进行驾驶员注意力状态的分析,因此,在驾驶安全、驾驶辅助领域,驾驶员眼动跟踪技术成为近年来研究的一个热点,引起了国内外研究人员的广泛关注。一般来说,眼动跟踪技术的实现方法分为两类,一类是基于特征的方法,一类是基于外观的方法。相比于基于特征的方法,基于外观的方法在眼动跟踪之前不需要定标过程,眼动跟踪过程更加自然、灵活,近年来随着深度学习的发展,驾驶环境下基于外观的眼动跟踪研究吸引了越来越多研究者的关注。本论文以汽车驾驶为应用场景,利用深度学习技术对驾驶员眼动跟踪技术展开研究,主要工作内容包括:首先对桌面式眼动跟踪进行了研究,提出了一种基于GoogLeNet的桌面式眼动跟踪算法;其次,利用深度学习技术对驾驶员眼动跟踪进行了研究,并设计了面向驾驶环境的眼动跟踪系统。本论文的主要创新点概括为以下三个方面:(1)提出了一种基于GoogLe Net的桌面式眼动跟踪算法。首先,利用Kinect采集用户桌面环境下眼动视频,并利用图像处理技术获取左眼和右眼图像,构建桌面环境下的眼动数据集;然后,利用GoogLeNet进行眼动跟踪深度网络模型的设计,对GoogLeNet网络进行微调,并通过对网络中最后一层平均池化的卷积核大小的调整,来减少网络参数。实验结果表明,该方法提高了网络模型的训练精度,训练得到的网络模型的眼动识别精度为92.4%。(2)提出了一种基于多通道卷积神经网络的驾驶员眼动跟踪算法。利用普通摄像头采集驾驶员驾驶过程中的视频,然后提取驾驶员左眼图像、右眼图像和脸部图像,利用这些图像数据构建驾驶环境下眼动数据集。基于多通道卷积神经网络,本文提出了面向驾驶环境的眼动跟踪深度网络模型,利用多通道卷积神经网络分别提取左眼图像特征、右眼图像特征以及脸部图像特征,并将三个网络通道所提取的特征融合,最后利用分类器得出分类结果。训练得到的深度网络模型,对驾驶环境下驾驶员头部偏移量与视线角度均具有鲁棒性,眼动跟踪精度为94.6%。(3)在上述研究基础上,开发完成驾驶环境下驾驶员眼动跟踪系统。该系统可以检测驾驶员的面部关键区域,并利用本文提出的基于多通道卷积神经网络的驾驶员眼动跟踪算法实现驾驶员注视区域的定位。同时,该系统还能够对驾驶过程中驾驶员不同区域的注视时间进行记录与统计,为驾驶行为分析、驾驶辅助等研究提供数据支撑。