基于深度学习的分子图生成

来源 :东南大学 | 被引量 : 0次 | 上传用户:shikongqidian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现代社会,材料化学中新分子探索已经成为热门话题,而材料创新是许多近期技术进步的关键驱动力。化学和材料科学领域的研究一直在不断发展,以开发出具有新颖用途、更低成本和更好性能的化合物。本文围绕基于深度学习的分子图生成对分子生成及目标优化任务展开研究,着力于提高生成分子和目标优化的性能。本文的主要工作如下:首先,分析了分子的两种表示形式:文本表示法和图表示法,对比讨论了它们的机制、特点以及优缺点。介绍了本文实验所使用的QM9数据集,同时从分子生成以及目标特性优化两个生成任务角度说明了所考虑的评估指标。其次,实现了典型分子图生成模型,它能够通过一个顺序过程生成任意图,并且可以捕获其结构和属性。并用该模型完成分子生成任务,实验结果表明,经过训练后,该模型可以无条件地或以数据为基础生成高质量的合成图和真实分子图样本。与不使用图结构表示的基线相比,该模型通常表现更好,显示出了巨大的潜力和独特的优势。然后,研究了强化学习(RL)和生成式对抗网络(GAN)的原理和架构,随后提出了一种基于强化学习和生成式对抗网络的分子图生成模型MGAN,该模型采用基于Wasserstein距离的生成式对抗网络以直接对图结构数据进行操作,用Wasserstein距离代替Jensen-Shannon散度来度量真实样本和生成样本分布之间的距离,是一种更加稳定的GAN模型,能够最小化发散。将该方法与强化学习目标相结合,以鼓励生成具有特定期望化学性质的分子图。在结合小批量的训练判别器后,缓解了生成式对抗网络易模式崩溃的问题,模型稳定性大大提升。在分子生成实验中,该模型能够生成接近100%的有效分子,在有效率和新颖率上也表现优异,分别可以达到99.8%和93%。但是唯一率比较低,只有19.2%。同时,MGAN能够学习到原数据集的分布,其生成的分子的化学指标能够基本匹配分子量和溶解度上的训练数据集QM9的分布,而且倾向于集中分布。在分子优化任务中,优化性能提升了4.2%,在提高了目标分子性质QED的同时,保持了100%的有效率。最后,研究了变分自编码器的原理和架构,提出了基于变分自编码器的分子图生成模型MVAE,该模型将门控图神经网络(GGNN)构建到VAE的编码器和解码器中,但是其运行时间长,所占内存大,而消息传递神经网络(MPNN)在分子性质预测基准上演示结果优异,考虑用MPNN代替原始GGNN。通过构造VAE的潜在空间,以允许优化分子性质。在分子生成实验中,该模型能够生成100%有效的化合物,并且新颖率和唯一率也很高,分别达到98.1%和98.6%。在分子优化任务中,与其他基线相比能够进一步优化目标特性QED,优化性能提升了5.8%,在提高了目标分子性质QED的同时,同样也保持了100%的有效率。
其他文献
胃癌是最常见的恶性肿瘤之一,其生存率较低,早期胃癌的手术治愈率很高,胃癌的早期诊断对癌症的治疗至关重要。然而,由于早期胃癌的隐匿性和多样性,在临床实践中仍然存在误诊,因此探索一种新的辅助检测方法对胃癌的临床应用具有重要意义。太赫兹(THz)波具有独特的光学特征,其穿透性好能量低,是一种非游离性辐射,具有相干性、瞬态性和宽带性,且许多生物大分子在此频段有特殊的指纹特性。基于这些特性,太赫兹波被证明适
学位
学位
学位
学位
电子战是一种对国家安全和人民安居至关重要的现代高技术的军事行动,其力量的强弱代表着一个国家的军事实力水平。雷达是电子战系统重要的组成部分之一,在越来越严峻的电磁环境背景下,宽带多功能相控阵体制雷达已成为先进雷达的重要发展方向。相控阵天线作为相控阵雷达与工作环境间的转换器,也必将沿着宽带宽角、多极化等方向飞速发展,这是确保天线系统高性能工作的关键技术,也是目前研究的热点和难点问题。因此本文着重研究了
学位
具备耐压能力强、高频性能、易集成等诸多优点的横向双扩散金属氧化物半导体场效应管(Lateral Double-diffused Metal Oxide Semiconductor,LDMOS),在功率集成电路中得到了广泛使用。近年来,人工智能、新能源、5G通信等高新技术的快速兴起,推动LDMOS器件向高耐压、低功耗方向进一步发展。但是传统LDMOS器件受限于硅材料的理论极限,无法满足应用系统对低导
学位
学位