论文部分内容阅读
历史太阳观测数据是进行长周期太阳活动研究不可多得的资料,完善和丰富历史观测资料的相关信息是开展相关研究工作的先决条件。本文以美国国立太阳天文台(NSO)历史H?观测资料扫描图像为对象,探究实现了一种能用于该图像中时间戳信息提取的方法。为挖掘这些历史数据的现代研究价值,使用现代计算机技术自动提取这些扫描图像中时间戳信息并写入数据头文件中。 为实现太阳扫描图像中时间戳信息的提取,本文克服四方面困难,完成图像中时间戳信息提取方法的开发: 针对图像中时间戳信息位置不固定的问题,本文采用Hough变换太阳圆检测与投影分割相结合的分割方法完成时间戳信息区域的分割。首先将图像进行降采样,得到较小的图像,再使用Hough变换的方法对图像中太阳圆进行检测,在保证精确度的同时极大降低运算复杂度;其次,使用基于Sauvola方法的拉伸变换,然后使用投影分割法精确地分割出时间戳信息列区域。 针对太阳扫描图像对比度较低或光照不均的问题,本文创新性提出一种基于全局和局部相结合的图像二值化阈值计算方法。该方法使用小阈值的全局阈值和T.R.Singh局部阈值同时对原图二值化,并使用二者的点积作为最后的二值化结果,能有效地从低对比度或光照不均的图像中分割出字符图像。 针对太阳扫描图像中字符位置不确定性的问题,本文利用字符笔画的一致性,对二值化后的图像,采用笔画宽度变换(SWT)算法,实现图像中随机位置上字符的定位分割。 针对如何准确识别分割后字符图像的问题,本文采用深度卷积神经网络(CNN)对分割出来的字符进行有监督地训练,得到能使用于该类太阳扫描图像中时间戳信息字符识别的知识表达,对后续分割从图像中分割处理的时间戳信息字符图像进行识别,最终得到识别后的时间戳信息。 最后,本文随机抽取NSO太阳扫描图像269张,并使用本文提出的时间戳信息字符分割方法对图像进行分割,得到3596个字符图像,使用其中3000个字符图像构建卷积神经网络训练样本库,剩下的596个字符图像作为测试样本集,实验结果表明本文方法对测试字符识别正确率达93.96%。