论文部分内容阅读
摘要:针对视力残障者在面对来自传感器的环境数据时,不能快速有效地被传达和理解空间信息等问题,文中设计并提出一种基于虚拟现实技术的新型听觉空间感知导盲系统。该系统在双耳定位的基础上,利用虚拟现实引擎Unity3D模拟重现激光雷达以4000Hz频率收集的环境数据,建立以每秒50帧高速实时更新的动态场景模型,进而实现立体声效,并通过频率与距离的关系设定引导使用者形成有效的听觉空间感知。文中设计并实施了由11位人员参与的实验,结果表明,实验者能够有效地同時识别多个障碍物的方位、距离和运动情况。
关键词:听觉空间感知;Unity3D;激光雷达;虚拟现实;导盲系统
Abstract: In allusion to the problem that the people with impaired or no vision can’t comprehend the surrounding spatial information detected by sensors, an auditory spatial perception blind-guiding system based on virtual reality is proposed. Building on the theory of Interaural Time Difference, Unity3D is used to create virtual reality environments and simulate the surrounding where the data is collected by LIDAR at the frequency of 4000Hz in the real life. With the dynamic scene model at 50 FPS, the immersive stereo sound to represent the information regarding objects angular orientation and varying pitch to represent horizontal distance, an effective auditory spatial perception can be created by the system for the user. An experiment with elaborate design is implemented in this paper, and the results demonstrate that the participants equipped with the system can effectively identify the orientation, distance and movement of multiple obstacles at the same time.
Key words: auditory spatial perception; Unity3D; LIDAR; virtual reality; blind-guiding system
根据WHO的报告显示,全球有2.53亿视力障碍者,其中3600万为盲人,而我国的盲人数量居世界第一,约有1700万(2018年)[1]。传统的导盲系统以基于触觉反馈的盲杖为主,有很多学者提出改进的盲杖[3-4],但是其仍具有探测范围有限、触觉反馈单一、训练时间长等缺点[2]。还有很多学者提出基于听觉反馈机制的导盲系统[5],相比于触觉,听觉感知具有更高的实时性,能够更好地表达距离、方位等空间信息。但现实中的听觉感知是个复杂的过程,很难完整模拟出真实的效果。而虚拟现实技术可以用来解决这一问题,作为一种重要的计算机仿真系统搭建手段,其沉浸式的音效表现在影音娱乐、教育军事以及多学科交叉研究领域的应用越来越广泛[6-7]。
本文结合听觉空间感知理论及Unity3D技术,采用激光雷达设计了一种全新的听觉感知导盲系统。激光雷达具有能够精准扫描大范围区域的优点[8],如图1所示,文中使用激光以4000Hz的频率扫描环境信息,通过Unity3D模拟出现实场景并还原出真实的立体声效,进而让使用者形成听觉空间感知。同时,本系统采用动态更新的模型和音源设计,具有可以区分运动物体和非运动物体、允许使用者自由移动旋转、能够还原多普勒效应等优点。
1系统原理及总体架构
1.1听觉空间感知原理
不论是视力残障者、后期盲人还是全盲者,都存在相似的听觉空间感知[9-10]。然而现实世界中的听觉空间感知的形成是一个从声源、环境到人的外耳、内耳最终到听觉神经的极其复杂的过程,期间很多因素都会影响到最终的效果[11]。其中,双耳时间差(Interaural Time Difference,ITD)是人在水平面上获得听觉空间感知的主要方式,即人通过声音到达左右耳的时间差和声音强度的不同来定位声源的方位和距离[12]。本文通过在Unity3D构建的场景中在相应的坐标制造声源,进而将空间坐标信息转换为声音传递到左右双耳的强度差和时间差,以此模拟出近似于现实环境中的立体声,最后根据距离和类型决定声音的频率和音色。
1.2系统总体架构
1.2.1系统硬件设计
本文选用思岚RPLIDAR-A2激光扫描器作为主要探测设备,其发射波长为785nm的红外激光,采用调制脉冲方式驱动,调制的激光不仅可以达到FDA Class I级别的激光器安全标准,确保对人类和宠物的安全性,而且可以有效地避免在测距扫描过程当中的环境光与日光的干扰。在电机机构的驱动下,RPLIDAR的激光测距核心将顺时针旋转,能够以10Hz(600rpm)的旋转频率实现对周围0.15m-12m半径内的360°全方位扫描测距检测,并且可以实现0.45°的角度分辨率和0.5mm的测距分辨率。如图2所示,RPLIDAR能够以4000Hz的频率测量所在平面的二维空间信息,并以[起始信号(bool),距离值(mm),夹角(°),校验和]的形式输出每个采样点的数据。 1.2.2系统软件设计
系统的软件设计如图3所示,数据采集程序驱动RPLIDAR采集的环境信息通过串口输出至终端,再经由特征提取算法提取关键障碍物信息,同时将障碍物的坐标数据从RPLIDAR采样点的极坐标形式转换为对应Unity3D场景的坐标数据,然后通过建立WebSocket连接的方式将数据传输至Unity3D环境中,通过立体声的播放让使用者形成听觉空间感知。
Unity3D是游戏引擎开发、实时3D互动内容创作和運营的平台,全球超过60%的AR和VR内容都用Unity3D制作,在Unity3D中场景的更新频率最高可以达到50帧每秒。本文通过Unity3D将上述来自RPLIDAR的坐标数据建立为虚拟场景模型,可以模拟出近似现实环境的模型,该场景模型会随着数据的不断接收而动态更新,最终声源的位置也会不断更新,进而让使用者可以听到场景的逐渐变化,也可以支持使用者自身的旋转和移动,以形成更好的听觉空间感知。使用者可以用非常少的训练成本和非常高的信息传递效率,依靠听觉反馈不断调整自身的位置和方向,最终确定声源的位置。
双耳时间差主要对1500Hz以下的声源定位起作用,并且有数据表明,500Hz左右的频率时变化感知阈限(Just Notice Difference,JND)达到极小值、定位性能更好,400-1000Hz相对其他频段更为平稳[13]。人耳的听觉范围一般为20-20000Hz,老年人会缩小至35-11000Hz,其中200-4000Hz是人声语言的频率范围,该范围对于大部分人类较容易接受。在本文的设计中,物体所发出的声音频率被设定成与距离成反比,即距离越近,声音越尖锐。频率与距离的关系用平移后的三次曲线函数确定:
其中,f代表声音的频率,D代表距离,a, b, c为待定常数,代入三个符合范围的初始标定值就可以得出。经过反复测试和筛选,本文最终选取的标定值为400-1300Hz。
2 实验设计
共计11位成年人参与了本次实验,其中包括5名女性和6名男性,他们此前均未接触过本系统,并且在音乐、声学等相关专业方面没有任何训练经验。实验在一个近似平台的室外环境下进行,实验者佩戴系统装置至胸前,头戴舒尔SRH840非降噪耳机,该耳机既能保证立体声效的真实还原,也能避免实验者自身的听力被系统所遮蔽。实验者双眼被完全不透光的眼罩蒙住,眼罩对应人的眉心处装有一个红色激光笔,用以观测实验者是否正确感知到障碍物的方位:如果激光笔照在障碍物上,说明实验者成功感知到了障碍物的方位;反之则失败。在以往的研究中,有研究者让实验者通过手持红色激光笔来指示其所感知到的障碍物的方位。但经过测试证明,由于人头部与手部的协调性等原因,实验者手持激光笔无法保证其指示方向与其所感知的方向完全一致,不仅增加了系统的训练成本,也很可能对实验结果的准确产生一定影响。本文对此提出了改进避免了实验者身体协调性的干扰。
实验中障碍物的整体布置如图4所示,其中障碍物到实验者的距离范围在1-4m,障碍物方位角最小只相差15°。障碍物的宽度为0.4m。每一次实验会从其中选取2-3个障碍物作为一个障碍物集。实验总体分为静止场景实验和运动场景实验两部分。
在静止场景实验中,每次实验中实验者被要求完成三个目标:
目标一:判断障碍物的数量;
目标二:指出各个障碍物的方位;
目标三:比较各个障碍物之间的距离远近并排序。
本文为实验设计了一个时长十分钟的训练模式,实验者可以在训练模式中适应设备的使用,并对音效中的音高、音色和响度有一定的熟悉。训练模式先后采用障碍物集1和2,第一次训练进行实验者可以实时得到训练人员的反馈和帮助,让实验者熟悉环境和操作,并进行自我校对;第二次训练由实验者独立完成,结束后实验者可以得知结果用来进一步校对。具体布置见图4和表1。
运动场景实验如图5所示,场景中存在一个障碍物和一个行人;第一次实验中,运动者从实验者面前经过,实验者需要保持激光笔照射在运动者身上;第二次实验中,运动者从某处朝着实验者的方向前进,实验者需要在运动者主动停止实验前做出足够的反应,包括仅仅做出意识到危险的反应;第三、四次实验中,实验者被要求向前行走,同时斜前方有运动者以特定方向出发,实验者同样需要判断自身安全。
3 实验结果及分析
实验者目标一的完成情况见表3。在障碍物集3和7中,100%的实验者正确判断出了该场景存在两个障碍物,这两个障碍物的放置位置见表2,其中物体C和E的角度相差90°、 A和F相差105°,与实验者的距离也不相同;而在障碍物集4和8中,正确率下降到81.82%和72.73%,根据实验者的反馈,这是因为两个物体距离实验者的距离相同,而且角度分别只相差45°和15°,根据系统设计,此时实验者听到的来自两个物体的声音频率相同,加大了辨别的难度;障碍物集5、9和10均有着90.91%的正确率,说明在同时有三个障碍物的情况下,使用者可以通过同时听到三种声音来定位三个障碍物。而障碍物集6的正确率下降至63.64%,主要原因是其中的物体H和J只相差15°,距离仅相差1m。可以初步认为:
实验者对障碍物数量的判断正确率整体在86%以上,这说明本系统成功让使用者意识到潜在的障碍物的数量;两个障碍物的距离和角度越接近,实验者越难分辨出其数量。
目标二的完成情况见表4。障碍物集3和7中物体C和E的正确率均为100%,说明所有的实验者都成功感知到了物体C和E、A和F的方向;而在障碍物集4中,物体F和K各有81.82%和90.91%的正确率,这个数值随着两物体相差角度的缩小,在障碍物集8中进一步下降;而在障碍物集5中,物体G与其他物体角度和距离都不相同,却有81.82%的正确率。经过实验者的反馈得知,由于G的距离为4m,对应发出的声音频率较低,有部分实验者没有注意到该声音,在随后的障碍物集9中的实验,这个数值由于实验者的经验而有所提升;而在障碍物集6中,物体J有着最低的正确率45.45%。总的来说,实验者对障碍物方位的判断正确率整体在92%以上,这说明本系统可以成功让使用者感知障碍物的方位。
关键词:听觉空间感知;Unity3D;激光雷达;虚拟现实;导盲系统
Abstract: In allusion to the problem that the people with impaired or no vision can’t comprehend the surrounding spatial information detected by sensors, an auditory spatial perception blind-guiding system based on virtual reality is proposed. Building on the theory of Interaural Time Difference, Unity3D is used to create virtual reality environments and simulate the surrounding where the data is collected by LIDAR at the frequency of 4000Hz in the real life. With the dynamic scene model at 50 FPS, the immersive stereo sound to represent the information regarding objects angular orientation and varying pitch to represent horizontal distance, an effective auditory spatial perception can be created by the system for the user. An experiment with elaborate design is implemented in this paper, and the results demonstrate that the participants equipped with the system can effectively identify the orientation, distance and movement of multiple obstacles at the same time.
Key words: auditory spatial perception; Unity3D; LIDAR; virtual reality; blind-guiding system
根据WHO的报告显示,全球有2.53亿视力障碍者,其中3600万为盲人,而我国的盲人数量居世界第一,约有1700万(2018年)[1]。传统的导盲系统以基于触觉反馈的盲杖为主,有很多学者提出改进的盲杖[3-4],但是其仍具有探测范围有限、触觉反馈单一、训练时间长等缺点[2]。还有很多学者提出基于听觉反馈机制的导盲系统[5],相比于触觉,听觉感知具有更高的实时性,能够更好地表达距离、方位等空间信息。但现实中的听觉感知是个复杂的过程,很难完整模拟出真实的效果。而虚拟现实技术可以用来解决这一问题,作为一种重要的计算机仿真系统搭建手段,其沉浸式的音效表现在影音娱乐、教育军事以及多学科交叉研究领域的应用越来越广泛[6-7]。
本文结合听觉空间感知理论及Unity3D技术,采用激光雷达设计了一种全新的听觉感知导盲系统。激光雷达具有能够精准扫描大范围区域的优点[8],如图1所示,文中使用激光以4000Hz的频率扫描环境信息,通过Unity3D模拟出现实场景并还原出真实的立体声效,进而让使用者形成听觉空间感知。同时,本系统采用动态更新的模型和音源设计,具有可以区分运动物体和非运动物体、允许使用者自由移动旋转、能够还原多普勒效应等优点。
1系统原理及总体架构
1.1听觉空间感知原理
不论是视力残障者、后期盲人还是全盲者,都存在相似的听觉空间感知[9-10]。然而现实世界中的听觉空间感知的形成是一个从声源、环境到人的外耳、内耳最终到听觉神经的极其复杂的过程,期间很多因素都会影响到最终的效果[11]。其中,双耳时间差(Interaural Time Difference,ITD)是人在水平面上获得听觉空间感知的主要方式,即人通过声音到达左右耳的时间差和声音强度的不同来定位声源的方位和距离[12]。本文通过在Unity3D构建的场景中在相应的坐标制造声源,进而将空间坐标信息转换为声音传递到左右双耳的强度差和时间差,以此模拟出近似于现实环境中的立体声,最后根据距离和类型决定声音的频率和音色。
1.2系统总体架构
1.2.1系统硬件设计
本文选用思岚RPLIDAR-A2激光扫描器作为主要探测设备,其发射波长为785nm的红外激光,采用调制脉冲方式驱动,调制的激光不仅可以达到FDA Class I级别的激光器安全标准,确保对人类和宠物的安全性,而且可以有效地避免在测距扫描过程当中的环境光与日光的干扰。在电机机构的驱动下,RPLIDAR的激光测距核心将顺时针旋转,能够以10Hz(600rpm)的旋转频率实现对周围0.15m-12m半径内的360°全方位扫描测距检测,并且可以实现0.45°的角度分辨率和0.5mm的测距分辨率。如图2所示,RPLIDAR能够以4000Hz的频率测量所在平面的二维空间信息,并以[起始信号(bool),距离值(mm),夹角(°),校验和]的形式输出每个采样点的数据。 1.2.2系统软件设计
系统的软件设计如图3所示,数据采集程序驱动RPLIDAR采集的环境信息通过串口输出至终端,再经由特征提取算法提取关键障碍物信息,同时将障碍物的坐标数据从RPLIDAR采样点的极坐标形式转换为对应Unity3D场景的坐标数据,然后通过建立WebSocket连接的方式将数据传输至Unity3D环境中,通过立体声的播放让使用者形成听觉空间感知。
Unity3D是游戏引擎开发、实时3D互动内容创作和運营的平台,全球超过60%的AR和VR内容都用Unity3D制作,在Unity3D中场景的更新频率最高可以达到50帧每秒。本文通过Unity3D将上述来自RPLIDAR的坐标数据建立为虚拟场景模型,可以模拟出近似现实环境的模型,该场景模型会随着数据的不断接收而动态更新,最终声源的位置也会不断更新,进而让使用者可以听到场景的逐渐变化,也可以支持使用者自身的旋转和移动,以形成更好的听觉空间感知。使用者可以用非常少的训练成本和非常高的信息传递效率,依靠听觉反馈不断调整自身的位置和方向,最终确定声源的位置。
双耳时间差主要对1500Hz以下的声源定位起作用,并且有数据表明,500Hz左右的频率时变化感知阈限(Just Notice Difference,JND)达到极小值、定位性能更好,400-1000Hz相对其他频段更为平稳[13]。人耳的听觉范围一般为20-20000Hz,老年人会缩小至35-11000Hz,其中200-4000Hz是人声语言的频率范围,该范围对于大部分人类较容易接受。在本文的设计中,物体所发出的声音频率被设定成与距离成反比,即距离越近,声音越尖锐。频率与距离的关系用平移后的三次曲线函数确定:
其中,f代表声音的频率,D代表距离,a, b, c为待定常数,代入三个符合范围的初始标定值就可以得出。经过反复测试和筛选,本文最终选取的标定值为400-1300Hz。
2 实验设计
共计11位成年人参与了本次实验,其中包括5名女性和6名男性,他们此前均未接触过本系统,并且在音乐、声学等相关专业方面没有任何训练经验。实验在一个近似平台的室外环境下进行,实验者佩戴系统装置至胸前,头戴舒尔SRH840非降噪耳机,该耳机既能保证立体声效的真实还原,也能避免实验者自身的听力被系统所遮蔽。实验者双眼被完全不透光的眼罩蒙住,眼罩对应人的眉心处装有一个红色激光笔,用以观测实验者是否正确感知到障碍物的方位:如果激光笔照在障碍物上,说明实验者成功感知到了障碍物的方位;反之则失败。在以往的研究中,有研究者让实验者通过手持红色激光笔来指示其所感知到的障碍物的方位。但经过测试证明,由于人头部与手部的协调性等原因,实验者手持激光笔无法保证其指示方向与其所感知的方向完全一致,不仅增加了系统的训练成本,也很可能对实验结果的准确产生一定影响。本文对此提出了改进避免了实验者身体协调性的干扰。
实验中障碍物的整体布置如图4所示,其中障碍物到实验者的距离范围在1-4m,障碍物方位角最小只相差15°。障碍物的宽度为0.4m。每一次实验会从其中选取2-3个障碍物作为一个障碍物集。实验总体分为静止场景实验和运动场景实验两部分。
在静止场景实验中,每次实验中实验者被要求完成三个目标:
目标一:判断障碍物的数量;
目标二:指出各个障碍物的方位;
目标三:比较各个障碍物之间的距离远近并排序。
本文为实验设计了一个时长十分钟的训练模式,实验者可以在训练模式中适应设备的使用,并对音效中的音高、音色和响度有一定的熟悉。训练模式先后采用障碍物集1和2,第一次训练进行实验者可以实时得到训练人员的反馈和帮助,让实验者熟悉环境和操作,并进行自我校对;第二次训练由实验者独立完成,结束后实验者可以得知结果用来进一步校对。具体布置见图4和表1。
运动场景实验如图5所示,场景中存在一个障碍物和一个行人;第一次实验中,运动者从实验者面前经过,实验者需要保持激光笔照射在运动者身上;第二次实验中,运动者从某处朝着实验者的方向前进,实验者需要在运动者主动停止实验前做出足够的反应,包括仅仅做出意识到危险的反应;第三、四次实验中,实验者被要求向前行走,同时斜前方有运动者以特定方向出发,实验者同样需要判断自身安全。
3 实验结果及分析
实验者目标一的完成情况见表3。在障碍物集3和7中,100%的实验者正确判断出了该场景存在两个障碍物,这两个障碍物的放置位置见表2,其中物体C和E的角度相差90°、 A和F相差105°,与实验者的距离也不相同;而在障碍物集4和8中,正确率下降到81.82%和72.73%,根据实验者的反馈,这是因为两个物体距离实验者的距离相同,而且角度分别只相差45°和15°,根据系统设计,此时实验者听到的来自两个物体的声音频率相同,加大了辨别的难度;障碍物集5、9和10均有着90.91%的正确率,说明在同时有三个障碍物的情况下,使用者可以通过同时听到三种声音来定位三个障碍物。而障碍物集6的正确率下降至63.64%,主要原因是其中的物体H和J只相差15°,距离仅相差1m。可以初步认为:
实验者对障碍物数量的判断正确率整体在86%以上,这说明本系统成功让使用者意识到潜在的障碍物的数量;两个障碍物的距离和角度越接近,实验者越难分辨出其数量。
目标二的完成情况见表4。障碍物集3和7中物体C和E的正确率均为100%,说明所有的实验者都成功感知到了物体C和E、A和F的方向;而在障碍物集4中,物体F和K各有81.82%和90.91%的正确率,这个数值随着两物体相差角度的缩小,在障碍物集8中进一步下降;而在障碍物集5中,物体G与其他物体角度和距离都不相同,却有81.82%的正确率。经过实验者的反馈得知,由于G的距离为4m,对应发出的声音频率较低,有部分实验者没有注意到该声音,在随后的障碍物集9中的实验,这个数值由于实验者的经验而有所提升;而在障碍物集6中,物体J有着最低的正确率45.45%。总的来说,实验者对障碍物方位的判断正确率整体在92%以上,这说明本系统可以成功让使用者感知障碍物的方位。