论文部分内容阅读
在现代社会,材料化学中新分子探索已经成为热门话题,而材料创新是许多近期技术进步的关键驱动力。化学和材料科学领域的研究一直在不断发展,以开发出具有新颖用途、更低成本和更好性能的化合物。本文围绕基于深度学习的分子图生成对分子生成及目标优化任务展开研究,着力于提高生成分子和目标优化的性能。本文的主要工作如下:首先,分析了分子的两种表示形式:文本表示法和图表示法,对比讨论了它们的机制、特点以及优缺点。介绍了本文实验所使用的QM9数据集,同时从分子生成以及目标特性优化两个生成任务角度说明了所考虑的评估指标。其次,实现了典型分子图生成模型,它能够通过一个顺序过程生成任意图,并且可以捕获其结构和属性。并用该模型完成分子生成任务,实验结果表明,经过训练后,该模型可以无条件地或以数据为基础生成高质量的合成图和真实分子图样本。与不使用图结构表示的基线相比,该模型通常表现更好,显示出了巨大的潜力和独特的优势。然后,研究了强化学习(RL)和生成式对抗网络(GAN)的原理和架构,随后提出了一种基于强化学习和生成式对抗网络的分子图生成模型MGAN,该模型采用基于Wasserstein距离的生成式对抗网络以直接对图结构数据进行操作,用Wasserstein距离代替Jensen-Shannon散度来度量真实样本和生成样本分布之间的距离,是一种更加稳定的GAN模型,能够最小化发散。将该方法与强化学习目标相结合,以鼓励生成具有特定期望化学性质的分子图。在结合小批量的训练判别器后,缓解了生成式对抗网络易模式崩溃的问题,模型稳定性大大提升。在分子生成实验中,该模型能够生成接近100%的有效分子,在有效率和新颖率上也表现优异,分别可以达到99.8%和93%。但是唯一率比较低,只有19.2%。同时,MGAN能够学习到原数据集的分布,其生成的分子的化学指标能够基本匹配分子量和溶解度上的训练数据集QM9的分布,而且倾向于集中分布。在分子优化任务中,优化性能提升了4.2%,在提高了目标分子性质QED的同时,保持了100%的有效率。最后,研究了变分自编码器的原理和架构,提出了基于变分自编码器的分子图生成模型MVAE,该模型将门控图神经网络(GGNN)构建到VAE的编码器和解码器中,但是其运行时间长,所占内存大,而消息传递神经网络(MPNN)在分子性质预测基准上演示结果优异,考虑用MPNN代替原始GGNN。通过构造VAE的潜在空间,以允许优化分子性质。在分子生成实验中,该模型能够生成100%有效的化合物,并且新颖率和唯一率也很高,分别达到98.1%和98.6%。在分子优化任务中,与其他基线相比能够进一步优化目标特性QED,优化性能提升了5.8%,在提高了目标分子性质QED的同时,同样也保持了100%的有效率。