论文部分内容阅读
随着多媒体大数据以及人工智能的飞速发展,如何从海量数据之中提取用户需要的有用数据已经成为了人工智能发展的迫切需求。其中,图像分割是多媒体数据分析与理解领域中一个基础并且重要的研究内容。由于计算机对图像内容的解释并不完整,近年来增加人为干预的交互式图像分割算法被深入研究,并且已经被广泛应用于图像处理的众多领域中。交互式图像分割的研究目的是为了通过简单而直观的人为标注,进而能够快速并准确地从输入图像中提取出具有高级语义特征的前景目标。目前深度学习在众多图像分割任务应用中取得了越来越好的效果,其中大部分分割算法都使用了端到端的自动分割网络,然而在实际情况中很多场景仍需要使用交互式的图像分割方法,比如在放疗靶区的标注,又或是在自动分割结果不理想时而需要用户手动改正,除此之外,在训练深度学习模型时通常需要人为标记许多图像分割结果作为训练集,使用高效的交互式分割工具能够在制作图像训练集时更便捷地标注图像。考虑到深度学习的优越性能,利用它来做交互式图像分割,可以减少用户交互次数以及花费的时间,从而得到更高效的交互式分割工具。通过对交互式图像分割的研究,能够发现交互式图像分割算法能广泛应用于医学影像处理、生物特征识别、无人驾驶等领域,但同时也存在着标注困难等一系列问题,因而需要更加简单高效的交互式分割方法。本文主要的研究内容和创新点包括以下几个方面1提出一种新的交互方式,在图像预处理环节,用户仅需在图像目标上标记目标中心与目标边缘两个点,就能够准确迅速的找出目标候选边界点,与现有的方法(边界框、画线、标记前景与背景点)相比,本文方法在大大节省标记时间的情况下同样可以得到与现有流行方法精度相同的结果。2在获得图像目标候选边界点后生成heatmap。具体地,本文在每个候选边界点都生成一个单独的二维高斯中心,并将此heatmap作为本文的分割网络输入中的一个额外的通道,与原图像的RGB通道连接起来作为4通道输入。本文的分割网络学习将这些信息转换成匹配这些候选边界点的目标对象分割。3改进现有的分割网络框架,本文将ResNet101作为骨干网络,并在此基础上改进了残差块结构,以及删除了网络最后的全连接层和第4第5阶段的最大池化层来保证图像分辨率,同时加入了空洞卷积来保持与原网络相同大小的感受野,最后本文网络使用金字塔场景分析模块,目的是为了在最后的特征图中添加全局上下文信息。