论文部分内容阅读
城市供水安全对国民经济、人民生活和社会稳定具有至关重要的影响。近年来,我国供水水源及管网突发性污染事故频发,严重威胁着城市供水安全,迫切需要加快建设水质污染检测与预警系统,以提升城市供水安全保障水平。三维荧光光谱检测技术由于具有灵敏度高、选择性好、快速实时等特点,目前在水质安全监测、污染物定量分析、污染物识别等领域受到越来越多的关注及应用。然而,由于水中的有机污染物浓度普遍较低,仪器噪声干扰、水质背景波动、特征信号微弱、物质结构近似等因素都会影响到三维荧光光谱分析的检测效果。此外,传统检测算法中采用线性特征提取方法,对新样本的泛化能力弱,难以进行工程化的应用。针对以上问题,本文以自动编码器作为自监督的特征学习手段,自动提取饮用水中有机污染物三维荧光光谱的低维本质特征,并开展污染物的检测与分类识别方法研究。论文的主要工作内容以及创新点如下:(1)针对低浓度下有机污染物光谱特征信号微弱,检出率较低的问题,提出了基于堆叠式自动编码器的有机污染物三维荧光光谱特征提取和异常检测方法。首先对采集的饮用水三维荧光光谱数据进行插值重采样,增加背景波动变化的饮用水样本;然后利用饮用水三维荧光光谱图像通过堆叠式自动编码器方法建立光谱图像重构模型,通过模型的预训练及fine-tuning来有效训练模型参数,提取三维荧光光谱的非线性特征;最后将测试样本输入到模型中进行重构后,计算重构光谱与原始光谱间的重构误差,结合阈值法进行异常检测判别。实验表明,该方法能够自动提取三维荧光光谱中的非线性特征,对低浓度有机污染物的检出效果有明显提升。(2)针对三维荧光光谱传统特征提取方法泛化能力不足的问题,提出了基于卷积自动编码器的有机污染物三维荧光光谱特征提取和分类识别方法。首先,该算法引入了卷积神经网络,其局部视野及池化层有效提取了三维荧光光谱的邻域特征,保证了有机污染物光谱在背景变化下的特征不变性,可以自动学习出有机污染物光谱具有泛化性的非线性特征;然后结合提升树算法XGBoost建立有机污染物分类识别模型。实验表明,该方法与主成份分析法(PCA)及平行因子算法(PARAFAC)等传统三维荧光光谱特征提取方法相比,在特征层面具有较好的泛化性,在结果统计层面也具有明显优势,证明卷积自动编码器可以自动学习出有机污染物三维荧光光谱的本质特征,从而提升饮用水中有机污染物的检出效果。(3)针对饮用水中有机污染物结构近似情况下,三维荧光光谱高度相似,物质不易判别的问题,提出了基于多尺度卷积层融合自动编码器的三维荧光光谱特征提取和判别方法。首先,该方法利用反卷积上采样和跳级结构,对多尺度卷积特征进行融合,融合后的特征光谱兼顾局部以及全局信息,有效提取了结构近似有机污染物光谱的纹理性特征;然后结合提升树算法XGBoost建立有机污染物物质判别模型。实验表明,与卷积自动编码器和常规特征提取方法对比,多尺度融合卷积有效补充了特征信息的不足,检测效果的提升证明了方法对结构近似有机污染物三维荧光光谱判别的有效性。(4)设计并开发了 一个基于三维荧光光谱的饮用水中有机污染物的检测系统。将检测系统分为检测平台和算法模块两部分,其中基于Spring MVC框架,结合Bootstrap以及MySQL技术搭建了检测平台,负责系统的业务逻辑;基于Python的Scikit-learn,Keras以及Tensorflow模块构建了算法模块,负责提供计算服务和算法接口,最终通过Docker部署以降低系统耦合性。综上所述,本文主要研究了基于自动编码器的饮用水中有机污染物荧光光谱的特征提取与识别方法。利用堆叠式自动编码器对饮用水中有机污染物进行异常检测,提升低浓度有机污染物的检出率;利用卷积自动编码器对饮用水中有机污染物进行分类识别,提升有机污染物光谱特征的泛化能力;利用多尺度卷积融合自动编码器对结构近似有机污染物进行物质判别,提升结构近似有机物的判别效果。基于论文的研究,设计并开发了基于三维荧光光谱的有机污染物检测系统,为城市饮用水水质的安全保障提供技术支持。