论文部分内容阅读
本论文的目的是在构建复杂多组份体系智能解析系统方面进行前期的研究工作。本论文的工作主要涉及化学计量学算法研究、数据库中的知识发现和智能解析系统的软件开发三个方面的内容。由于时间的原因,目前只完成了部分的软件开发工作。现对这三个方面的内容简述如下: 一、化学计量学算法研究:这部分工作主要包括二维联用色谱数据的自动分辨算法研究、纯物质质谱检索算法研究和混合物质谱检索算法研究,以便为智能解析系统的构建提供新的理论基础。自动分辨算法的研究主要包括对体系组份数的自动判定和自动分辨算法。我们提出了一种初始关键光谱集选择法,通过对初始关键集中各关键光谱相似程度的比较,建立了一种可自动判定体系组份数的指标,从而可确定体系的真实关键集。在此基础上,为实现分辨过程的自动化,我们提出了一种全新的分辨方法——迭代关键集选择法。该法通过重新选择体系的关键集,可将各组份的色谱解出,继而求出各组份的光谱(或质谱,等等)。纯物质质谱检索算法研究的侧重点在于实现相似检索。通过充分强调分子子结构的相似性,我们提出了一种新的计算质谱相似程度的算法,可较好地实现相似检索。混合物质谱检索算法研究的目的是为解决在无法获得纯质谱的情况下,如高沸点样品进样和色谱峰未能完全分离等,实现质谱检索。为此,我们提出一种参考谱加权存在指数,用于从质谱库中筛选出可能物质,然后用非负最小二乘法确定真实存在的物质。 二、数据库中的知识发现:本项研究的目的有两个,其一是为建立智能解析系统的知识库作必要的知识积累;其二是为研究如何从大型数据库中获取有用的化学知识作一些初步的探索。通过对NIST62质谱库的统计分析,我们首次发现实测的(M+1)同位素峰与分子离子峰(M)的比值(M+1)/M与相应的理论计算值之差满足对数正态分布。本项研究工作表明,对化学数据库进行广泛而又深入的研究对验证现有的化学知识以及发现新的化学规律都是一件非常有意义的工作。 三、召 鸵的软仟开发:本项工作的目的是构建智能解析系统的软件实体。考虑到软件的开发是一件长期的工作,现阶段暂时把整个系统分拆成两个既独立又可相互连接的系统—一多元曲线分辨系统和质谱专家系统。多元曲线分辨系统把目前在解析二维联用色谱数据方面比较有效的化学计量学算法软件化,其本身既可独立作为一个软件系统,又可作为质诣专家系既的前端软件,将解析结果送人到专家系统进行进一步的分析. 考虑到系统运行的有效性及将来软件代码移植的便利性,我们采用C++面向对象编程技术,基于vcdH-开发平台进行软件开发工作。由于化学计量学算法大多涉及矩阵运算,我们为此专门开发了矩阵类库,大大简化了程序代码,提高了程序运行的效率。 限于时间,目前只基本上完成多元曲线分辨系统的开发工作,工程项目代码总数达38000多行。对于质诸专家系统目前只构造了基本的框架。