基于深度学习的药品近红外光谱数据多分类方法研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:david_lau82
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
药品是关系到每个人身体健康的特殊商品。药品市场监督与治理已是世界各国需要面对的、关系到国计民生的重大问题,如何广泛快速有效筛查药品,规范药品市场,一直是各国政府十分重视并亟待解决的问题。由于近红外光谱分析技术在药品快检中具有其他检测方法无可比拟的优势,我国长年以来依赖近红外光谱快检技术对药品市场实施大范围地监督,药品近红外光谱快检技术处于不断快速发展和完善中。然而,根据目前药品违法犯罪的新态势和新变化,药品快检技术中最为重要的药品近红外光谱分类鉴别技术,遇到了大量的新问题,必须引入并结合更新的诸如深度学习之类的技术,才能应对:1)普查筛查工作的普遍性、复杂性及当前不高的案件缉获率,要求近红外光谱技术适用于“类别数目多,光谱数量大”场景并进一步改善其性能。2)劣药生产销售占比急剧升高和药品违法仿冒、非法进口等妨碍药品市场管理秩序逐渐成为犯罪主流,要求近红外光谱技术提供“类间差异小、类内差异大”场景下的快速精准多分类鉴别支持以进行反制。3)类别、光谱数目多情形下的复杂鉴别分类往往伴随“类间样本不均衡”问题和“分类错误代价敏感”相关问题。4)伴随着医药行业的快速发展和不断取得新成果,新的药品违法犯罪形式也在不断出现,如何利用现有光谱大数据中蕴含的通用先验知识进行分类,并进而为识别“超出建模样本类别外”的违法犯罪情形提供便利,需要借鉴深度学习中诸如“对比学习”之类的办法,以减少模型引入新样本、扩展新范围的代价和成本。为此,本文根据违法药品检测的新形势,从药品质量监督现实需求及近红外光谱快检技术需求入手,基于深度学习提出四种“类别数目大,光谱数量多”场景下的药品近红外光谱数据多分类建模方法,尝试分化解决或综合解决在此场景下“类间差异小”、“类内差异大”、“样本不均衡”、难以识别“超出建模样本类别范围”未知样本等问题:1)针对“类间差异小”问题,基于变分自编码(VAE)既是特征提取器又是数据生成器这一特点,提出一种同时考虑特征提取与分类,同时训练VAE网络与分类网络,利用VAE特征生成样本来进行分类的药品近红外谱多分类建模方法。该方法尝试更改分类算法中依赖原始样本进行分类的传统思路,全部使用根据VAE特征产生的生成样本来分类。围绕此思路设计了自编码特征提取目标与分类目标同时考虑的代价函数,搭建了分类器直接串接于样本生成器之后,VAE网络与分类网络同时训练的网络结构。主要依赖于变换后生成样本的迥异来提升在“类间差异小”场景下的分类准确率。对比常用的8种分类算法,实验结果表明,在类别数量较大、待分析光谱数量较多、样本类别间差异较小的场景中,大部分情形下(当训练集占整个数据集的50%以上时),模型能获得较好效果。2)针对“样本不均衡”问题,基于对抗生成模型(GAN)能生成真实性多样性俱适宜的生成样本的优点,通过改造Bi-GAN,提出一种使用定量生成指定类别高质量样本光谱来进行药品多分类的建模方法。该方法先使用预训练过的BP-ANN分类器以提供初始分类监督;后通过对原始Bi-GAN算法进行局部随机采样限定的方式,综合生成数据的真实性目标和多样性目标;最后通过生成器、辨别器、分类器三个网络交替训练,用类内定量生成的真实性高、多样性适宜、受分类监督的生成样本来代替原始采集的不均匀样本作为分类训练依据,取得了较好的建模效果,且其时间代价相对稳定。3)针对类间差异小、类内差异大、类间样本不均衡、超出建模样本类别范围时识别难等多种问题存在的复杂场景,利用孪生神经网络在对比特征提取能力上的优点,提出一种以光谱数据库中类别异同先验知识为鉴别、分类依据的药品近光谱多品种、多厂商鉴别、分类建模方法。该方法利用孪生神经网络能够提取“仅与类别异同相关,而与具体类别标签无关特征”的优点,通过使用均衡合理的采样策略,构建结构优良的1D-CNN特征提取子网络,先将孪生神经网络适配成鉴别网络以实现真假药鉴别算法,再将鉴别算法改造成多分类算法,较好地实现了多种复杂场景复合下的较高准确率的鉴别、分类目标。同时,该算法尝试使用“在一种数据集上建模,而用另一种厂商名、药名均在建模时未知的数据集进行测试”的作法,验证了使用该方法后,后台数据所蕴含的关于类别异同的通用先验知识仍能以较大概率对超出建模外类别范围外的数据发生作用的可能性,为提取、泛化、利用通用先验知识提供了可供参考和可进一步优化的有益借鉴。该方法使用样本数为32015个,类数达到472类的药品近红外光谱组成数据集并渐次投入数据进行五个建模实验,相继验证了模型中1D-CNN的作用、基本鉴别分类目标的可达成、用类别异同先验知识识别未知类别样本的可能性、以及模型在模拟真实困难场景下与其他算法对比的准确性。实验结果表明,相对于其他6种常用方法,该方法在类别数光谱数较多、类间差异小而类内差异大、类间样本不均衡、分类错误代价敏感等复杂状况下,能够取得更好的鉴别效果,在大部分情形下,具有96%以上的分类鉴别准确率,具有较好的通用性和泛化性。4)基于孪生神经网络和深度聚类提出一种监督聚类药品近红外光谱建模方法。该方法综合VAE、孪生神经网络、DBSCAN、匈牙利算法等多种方法建模,充分利用VAE能够就同一模板围绕特征生成不同样本的优点,以及孪生神经网络能够在特征空间将同类样本拉近,将异类样本扯远的能力,将提取的特征用基于密度的DBSCAN聚类算法聚类,实现了隐含特征空间中,未知样本能聚类成跟分类监督算法结果基本一致的监督聚类目标。模型能主动推荐聚类中心附近的数个样本为典型样本,在推荐样本被正确标注之后,能对待检药品样本实现有效分类。将样本数为32015个,类数为472类的药品近红外光谱组成数据集,渐次投入数据进行三个聚类和分类实验,分别用于剖析验证模型功能的基本有效性,展示模型对较复杂场景复合情况下的聚类、分类效果。经与其他8种常用多分类方法的对比,实验表明,模型有较好的分类性能,在大部分情形下,具有96%以上的分类准确率。综上所述,本文所提出的方法较好地解决了当前药品监督时所遇到的多分类鉴别方面的一些值得重视的问题,同时也为快速发展的近红外快检技术提供了新的技术思路,若干尝试和探索也为其他NIRS、红外、拉曼等分子光谱在应对共性难题时提供了线索和参考,同时也为未来的研究工作奠定了一定的基础。
其他文献
赛什塘铜矿是东昆仑地区最具代表性的、开发程度最高的铜矿床。本文在充分收集并总结前人研究成果的基础上,开展了系统的岩石学、岩石地球化学、矿物学及矿物化学、成岩成矿年代学、流体包裹体测温及稳定同位素等方面的研究工作,确定了岩石成因及物质来源、矿床成因与成矿机制,揭示了赛什塘铜矿形成的构造背景。赛什塘铜矿矽卡岩及矿体产于石英闪长岩与围岩地层接触带。对成矿地质条件的重新梳理表明,石英闪长岩由内部相中细粒石
获取文本语义是大部分自然语言处理研究的最终目的。文本语义是指文本信息所包含的真实意义,文本语义分析通过建立模型使计算机能够模拟人类对自然语言的深层语义进行理解,识别信息中所包含的真实含义。获取文本的真实语义有助于提高各种自然语言处理顶层任务的处理效果,如机器翻译、问答系统、对话机器人等。语义分析过程中,当数据分布不平衡时,文本语义特征提取尤为重要,如何做到不忽略小类别的特征是亟待解决的问题。在语义
移动无线通信当前面临着频谱资源的匮乏、大规模的接入节点激增、能源开销日益增长以及高数据流量和高质量移动服务业务需求增长等问题。而无线光通信(OWC)技术作为射频(RF)无线通信的重要补充和未来趋势正被重点关注和不断发展。其中的非视线(NLOS)紫外光通信(UVC)具备低噪声干扰、全地域全天候适用、区域高保密以及机动灵活无需跟踪瞄准等独特优势,应用场景广泛。随着日盲区紫外通信的半导体收发器件的快速发
面对竞争日益激烈的市场环境,制造企业不仅需要合理的生产规划,同时需要稳定高效的生产环境。设备布局是生产环境的重要组成部分,合理的设备布局方案可以显著提高系统的吞吐量、生产效率和降低运营成本。设备布局问题可以描述为根据给定的优化目标,例如最小化物料搬运成本、最小化布局面积以及最大化邻接函数(评估两台设备间的接近程度)等,在一定的约束条件下(例如非重叠约束,设备长宽比约束等),确定设备的最优放置位置。
随着网络技术的发展,网络环境的日趋复杂化,使得网络安全问题日益突出,网络攻击的复杂度、隐蔽性不断提高,给国家社会造成了大量的财产损失的同时,加剧了使用者对网络空间的不信任感。入侵检测系统(IDS)作为网络安全防御的有效手段,一直是课题研究的重点所在。基于深度神经网络的深度学习算法能够自动建立网络流数据低层次特征到高级语义之间的复杂映射关系,通过特征的逐层变换完成最后的预测或识别。这解决了基于传统机
同步是自然界和我们日常生活中普遍而重要的现象。例如,萤火虫的同时闪烁和心脏起搏细胞的同时发射。由于同步现象的普遍性,对同步的研究覆盖了自然科学、工程学、生物学等许多领域,甚至社会行为学都与同步有着密切的联系。人际同步作为社会行为学中常见的同步现象被广为研究。大型音乐厅自发鼓掌同步过程是典型的人际同步现象之一。在人际同步的实验研究中,鼓掌系统因其设置和操作简单而被广泛的研究。许多物理方法被用来研究群
模态逻辑和行为等价在并发系统的规约和验证中起着重要作用。前者可用于模型检查,特别是用于指定要验证的属性。后者可用于状态聚合算法,该算法通过合并互相似状态来压缩模型,同时又能保证所需的属性得到保留。互模拟是离散事件系统的一个著名的行为等价,它被广泛应用于计算机科学的许多领域,特别是在验证中,它对约简所考虑系统的状态空间至关重要。近年来,互模拟在模糊系统中得到了广泛的研究和发展。关于互模拟概念的一个核
正虹吸管道输水是一种常见的输水方式。工程中依据常规有压管流基本理论对虹吸管道进行水力设计,但是在水平距离长、大真空度的正虹吸管内流动介质体并不是单一的液相流而是气液两相流,气相的体积分数随安装高度的增大而增大,气相对管道的水力特性的影响不可忽略,负压条件下管路内的气液两相流的水力特性不同于常规正压管道,弄清楚其水力特性对长距离大真空度虹吸管路输水工程的设计和运行至关重要。因此,本文采用了物理模型试
网络信息安全是建设网络强国的有力保障,对社会经济、科学、文化等方面有着巨大影响。量子密钥分发(QKD,Quantum Key Distribution)可以提供安全的密钥分发方式,以其为基础支撑的QKD网络技术是大国科技、国力、军事竞争的战略高地。发展QKD网络技术已成为国家战略层面上的重要任务,对保障未来网络信息安全具有重要意义。本论文围绕QKD网络生存性关键技术展开研究,从端到端密钥供给连通性
作为伦理学研究的新领域,近年来责任问题越来越受到伦理学界的关注和重视。关于责任的伦理研究大致可以分为两个维度:第一个是以制度至善为核心的社会责任研究,第二个是以个体至善为核心的个体责任研究。本文认为尽管至善的制度在责任伦理构建中有着优先性,但制度依赖却不能真正实现责任伦理所追求的终极目的。对这种终极目的的价值诉求只有落实到个体才能获得意义。故而个体责任才是责任伦理的基础和本源。所谓个体责任,是指以