论文部分内容阅读
药品是关系到每个人身体健康的特殊商品。药品市场监督与治理已是世界各国需要面对的、关系到国计民生的重大问题,如何广泛快速有效筛查药品,规范药品市场,一直是各国政府十分重视并亟待解决的问题。由于近红外光谱分析技术在药品快检中具有其他检测方法无可比拟的优势,我国长年以来依赖近红外光谱快检技术对药品市场实施大范围地监督,药品近红外光谱快检技术处于不断快速发展和完善中。然而,根据目前药品违法犯罪的新态势和新变化,药品快检技术中最为重要的药品近红外光谱分类鉴别技术,遇到了大量的新问题,必须引入并结合更新的诸如深度学习之类的技术,才能应对:1)普查筛查工作的普遍性、复杂性及当前不高的案件缉获率,要求近红外光谱技术适用于“类别数目多,光谱数量大”场景并进一步改善其性能。2)劣药生产销售占比急剧升高和药品违法仿冒、非法进口等妨碍药品市场管理秩序逐渐成为犯罪主流,要求近红外光谱技术提供“类间差异小、类内差异大”场景下的快速精准多分类鉴别支持以进行反制。3)类别、光谱数目多情形下的复杂鉴别分类往往伴随“类间样本不均衡”问题和“分类错误代价敏感”相关问题。4)伴随着医药行业的快速发展和不断取得新成果,新的药品违法犯罪形式也在不断出现,如何利用现有光谱大数据中蕴含的通用先验知识进行分类,并进而为识别“超出建模样本类别外”的违法犯罪情形提供便利,需要借鉴深度学习中诸如“对比学习”之类的办法,以减少模型引入新样本、扩展新范围的代价和成本。为此,本文根据违法药品检测的新形势,从药品质量监督现实需求及近红外光谱快检技术需求入手,基于深度学习提出四种“类别数目大,光谱数量多”场景下的药品近红外光谱数据多分类建模方法,尝试分化解决或综合解决在此场景下“类间差异小”、“类内差异大”、“样本不均衡”、难以识别“超出建模样本类别范围”未知样本等问题:1)针对“类间差异小”问题,基于变分自编码(VAE)既是特征提取器又是数据生成器这一特点,提出一种同时考虑特征提取与分类,同时训练VAE网络与分类网络,利用VAE特征生成样本来进行分类的药品近红外谱多分类建模方法。该方法尝试更改分类算法中依赖原始样本进行分类的传统思路,全部使用根据VAE特征产生的生成样本来分类。围绕此思路设计了自编码特征提取目标与分类目标同时考虑的代价函数,搭建了分类器直接串接于样本生成器之后,VAE网络与分类网络同时训练的网络结构。主要依赖于变换后生成样本的迥异来提升在“类间差异小”场景下的分类准确率。对比常用的8种分类算法,实验结果表明,在类别数量较大、待分析光谱数量较多、样本类别间差异较小的场景中,大部分情形下(当训练集占整个数据集的50%以上时),模型能获得较好效果。2)针对“样本不均衡”问题,基于对抗生成模型(GAN)能生成真实性多样性俱适宜的生成样本的优点,通过改造Bi-GAN,提出一种使用定量生成指定类别高质量样本光谱来进行药品多分类的建模方法。该方法先使用预训练过的BP-ANN分类器以提供初始分类监督;后通过对原始Bi-GAN算法进行局部随机采样限定的方式,综合生成数据的真实性目标和多样性目标;最后通过生成器、辨别器、分类器三个网络交替训练,用类内定量生成的真实性高、多样性适宜、受分类监督的生成样本来代替原始采集的不均匀样本作为分类训练依据,取得了较好的建模效果,且其时间代价相对稳定。3)针对类间差异小、类内差异大、类间样本不均衡、超出建模样本类别范围时识别难等多种问题存在的复杂场景,利用孪生神经网络在对比特征提取能力上的优点,提出一种以光谱数据库中类别异同先验知识为鉴别、分类依据的药品近光谱多品种、多厂商鉴别、分类建模方法。该方法利用孪生神经网络能够提取“仅与类别异同相关,而与具体类别标签无关特征”的优点,通过使用均衡合理的采样策略,构建结构优良的1D-CNN特征提取子网络,先将孪生神经网络适配成鉴别网络以实现真假药鉴别算法,再将鉴别算法改造成多分类算法,较好地实现了多种复杂场景复合下的较高准确率的鉴别、分类目标。同时,该算法尝试使用“在一种数据集上建模,而用另一种厂商名、药名均在建模时未知的数据集进行测试”的作法,验证了使用该方法后,后台数据所蕴含的关于类别异同的通用先验知识仍能以较大概率对超出建模外类别范围外的数据发生作用的可能性,为提取、泛化、利用通用先验知识提供了可供参考和可进一步优化的有益借鉴。该方法使用样本数为32015个,类数达到472类的药品近红外光谱组成数据集并渐次投入数据进行五个建模实验,相继验证了模型中1D-CNN的作用、基本鉴别分类目标的可达成、用类别异同先验知识识别未知类别样本的可能性、以及模型在模拟真实困难场景下与其他算法对比的准确性。实验结果表明,相对于其他6种常用方法,该方法在类别数光谱数较多、类间差异小而类内差异大、类间样本不均衡、分类错误代价敏感等复杂状况下,能够取得更好的鉴别效果,在大部分情形下,具有96%以上的分类鉴别准确率,具有较好的通用性和泛化性。4)基于孪生神经网络和深度聚类提出一种监督聚类药品近红外光谱建模方法。该方法综合VAE、孪生神经网络、DBSCAN、匈牙利算法等多种方法建模,充分利用VAE能够就同一模板围绕特征生成不同样本的优点,以及孪生神经网络能够在特征空间将同类样本拉近,将异类样本扯远的能力,将提取的特征用基于密度的DBSCAN聚类算法聚类,实现了隐含特征空间中,未知样本能聚类成跟分类监督算法结果基本一致的监督聚类目标。模型能主动推荐聚类中心附近的数个样本为典型样本,在推荐样本被正确标注之后,能对待检药品样本实现有效分类。将样本数为32015个,类数为472类的药品近红外光谱组成数据集,渐次投入数据进行三个聚类和分类实验,分别用于剖析验证模型功能的基本有效性,展示模型对较复杂场景复合情况下的聚类、分类效果。经与其他8种常用多分类方法的对比,实验表明,模型有较好的分类性能,在大部分情形下,具有96%以上的分类准确率。综上所述,本文所提出的方法较好地解决了当前药品监督时所遇到的多分类鉴别方面的一些值得重视的问题,同时也为快速发展的近红外快检技术提供了新的技术思路,若干尝试和探索也为其他NIRS、红外、拉曼等分子光谱在应对共性难题时提供了线索和参考,同时也为未来的研究工作奠定了一定的基础。