论文部分内容阅读
深度学习算法的实际应用落地是备受关注的一个领域,而在学校的教室场景是非常适合深度学习算法的应用场景,因为这种场景下存在大量的监控视频数据。针对监控摄像头拍摄的视频或图片数据进行学生注意力分析属于计算机视觉的人类-物体交互(Human-Object Interactions)领域,是抽象的语义理解问题,也是计算机视觉中比较高级和困难的问题。目前把人类与物体交互领域内的研究成果要直接应用在教室的学生注意力分析上存在如下几个问题:1.人类与物体交互不像浅层的如人脸识别、目标检测等方向那样很好地被解决,具有代表性的HICO数据集上表现最好的算法只有不到40%的mAP;2.人类-物体交互领域关注的具体类别比较宽泛,鲜有聚焦到教室场景下学生注意力分析的研究工作;3.少有的研究教室场景下学生注意力分析的算法或模型需要大量繁复的标注,使得数据采集困难、工作量艰巨。本文以教室场景下的学生注意力分析为研究课题,具体地,通过本文监控摄像头拍摄的数据,围绕学生注意力是否在黑板上这一核心问题,把学生的行为分类先粗分类为站立、坐下、趴桌子三类,在坐下这一类别下又进一步细分类为抬头看黑板、头侧向黑板、头背向黑板和低头这四类。本论文的主要工作包括:1.在学生注意力粗分类中,提出一种可接受骨架热图信息作为输入的图卷积网络结构,并最终基于此提出一种双分支网络。此外还研究了半监督学习和不同损失函数在此任务上的表现。2.在学生注意力细分类中,提出一种位置与视角鲁棒的分类模型,把核心围绕是否看向黑板这种人类与物体交互的任务成功转化为一种分类任务。使用这种方法的最终效果显著地优于基准线。3.在学生注意力细分类中,提出一种基于区间和均方误差的回归损失函数,它可以充分地利用数据中未标注出的角度信息。实验中,它的效果优于均方误差损失函数。