论文部分内容阅读
本文所使用的Where-What Network模型,粗略建模人类视觉系统信息处理的两条通路结构:腹侧通路主要处理物体的外形轮廓等信息,即主要负责物体的类型识别;背侧通路主要处理物体的空间位置信息等,即主要负责物体的空间定位。这是一个通用模型,可以在复杂背景下进行物体的识别与定位。该模型可以应用于注意力选择及识别等领域。前期的Where-What Network模型共有四个版本:WWN-1实现了自然背景下单个目标物体的两种能力:一定位置下的物体识别和某一类型出现在哪个位置,但是只是实现了五个位置的学习和测试。WWN-2在WWN-1的基础上,实现了自然背景下单个物体在任意位置上的注意和识别,并且是在不提供任何位置和类型信息的前提下进行测试(free-viewing)。WWN-3实现了自然背景下多个目标物体的检测和识别,并且物体为任意轮廓(WWN-1和WWN-2中物体使用方形轮廓)。WWN-4显示了直接从感受器和效应器取得输入上的优势。前期四个模型主要处理单一尺度的物体。本文的主要工作包括:简化网络结构,去掉已有模型中IT和PP区域,形成一个简化版本的模型结构;实现WWN-5模型,使WWN网络可以处理不同尺度的物体。本文所涉及到的算法模型,是自主心智发育算法的一个框架,基于颅骨闭合(skull-closed)这个概念,具有任务非特定性、增量学习等特点。简化网络结构,即除去模型中原有的IT、PP区域,节约资源,简化计算,提高性能。这一简化处理最初源自将模型应用于海宝智能机器人上时对时间的要求。海宝机器人要在游客面前展示现场进行样本学习,同时测试学习成果这一过程,因此要尽量缩短计算时间。简化网络结构后,不但时间缩短,同时识别率也有所提高。WWN-5模型,利用多个感受野区域,解决了WWN前四个版本只能处理单一尺寸的物体这一关键问题,使模型更具通用性。本文用大量的实验结果证实了WWNs模型在结构和性能上的优势。