论文部分内容阅读
人体行为识别(Human Activity Recognition,HAR)是指对被观测个体的动作类型、行为模式等信息进行综合地分析与识别,并将识别结果通过自然语言等方式进行描述。由于HAR系统能够主动感知用户意图,因此在高级人机交互、智能视频监控、虚拟现实、医疗诊断等领域具有广泛的应用前景和潜在的商业价值。现如今人们研究较多的是因身体大幅度运动而产生的日常行为(如跑步、走路、跳、上楼、下楼等),而对身体不需要大幅度运动但和眼球运动相关的视觉行为研究(如:办公场景下的阅读、写字、看视频、浏览网页)的报道较为少见。EOG作为一种重要的眼球运动记录方法,且具有非侵入式、设备成本低、便于携带且不易受环境因素影响等优点。因此本文主要的研究内容是用EOG信号对办公场景下的活动进行识别。具体工作包括:(1)对现有的人体行为识别技术进行了深入调研,分析并比较了基于计算机视觉和生物电传感器的实现方法。在此基础上,针对所识别的阅读、休息、写字行为主要与眼球运动有关这一特点,选取了 EOG信号作为识别的手段。最后研究了包括信号的采集、预处理和特征提取在内的眼电信号的一般处理方法。(2)基本眼动单元的确定及识别研究。在基于EOG的活动识别过程中,眼球运动单元的持续时间对于识别系统是很重要的。为了研究持续时间和识别率之间的关系,我们首先采集了 5s、10s、15s、20s、25s、30s这6个不同时间长度的眼球运动数据。然后,我们使用三种方法(即:小波变换、功率谱密度和Hjorth参数)提取特征参数用于识别上述的6种不同长度的基本眼动单元。最后,通过比较不同时间长度下的识别率,确定了 l0s作为最佳基本眼动单元的持续时间,为后续的研究奠定基础。(3)行为关系模型建立的研究。在特定的背景任务下不同行为状态之间存在一种潜在的上下文关系,这种关系可能会提高人体行为识别的性能。因此,为了建立有效的行为关系模型,我们设计了一种全新的实验范式采集一系列行为状态下的眼球运动数据。然后,通过N-gram方法对这些数据进行统计,计算出每一种行为状态的转移概率,并根据前面状态序列来推测当前所处的行为状态。(4)双模型融合的人体行为识别研究。为了验证所提出行为关系模型的有效性,我们首先提出了一个置信度参数用于整合行为关系模型和EOG信号识别模型的输出。该置信参数可以用来判断EOG信号识别模型的识别结果是否是高风险的,进而利用行为关系模型中得到的概率统计信息重新识别这些高风险的结果以提高识别结果的可靠性。在within-subjects测试(训练数据和测试数据来自同一个受试者)和between-subjects测试(训练数据和测试数据来自不同的受试者)中,与传统的EOG信号识别方法相比,融合了行为关系模型的方法的平均识别率分别提高了 7.72%,2.49%,4.69%和 11.76%,12.1%,12.42%,证明了行为关系模型确实能够提高人体行为识别算法性能。