论文部分内容阅读
生物信息学是最近几年兴起并得到快速发展的交叉学科,它是在生物分子(DNA和蛋白质)数据海量涌现的情况下采用传统的生物学方法无法处理的背景下产生的。生物信息学综合运用数学、计算机科学和生物学的各种工具,包括了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,阐明和理解大量数据所包含的生物学意义,对生物学的发展起到了良好的促进作用。
微生物种群测序技术是近年来发展很快的研究领域。研究人员提取环境(海洋、地下水)中的微生物种群样本,通过DNA序列分析工具对微生物的基因组进行分析,已经发现了许多基因,通过研究这些基因相互之间的作用以及对环境的影响,必将对环境治理和生态系统的研究具有十分重要的意义。
由于微生物种群测序与传统的生物测序有着较大不同,因此传统的测序方法无法解决微生物种群测序中的问题。传统的生物测序中,由于仅对一个生物测序并需要很高的测序精度,因此覆盖率较高,通常为8-10。而在微生物种群测序中,由于物种繁多,测序成本高,不可能对所有生物全部完全测序,因此拼接出来的contig互相之间并不重叠,但是将属于同一物种的contig聚为一类具有很强的生物学意义。由于DNA序列可以看成是由四个字母组成的文本,因此很多字符串和文本处理的技术被引入到DNA序列分析中。目前有很多特征提取方法,但大部分是基于词频率向量的,我们结合微生物种群测序这个具体课题,选择基于信息论的相对熵作为两个DNA序列关系的一种度量。BP神经网络是一种多层误差反传神经网络,它在模式分类领域有着广泛的应用。
本文提出了一种对微生物种群中的DNA序列盲聚类方法。首先我们计算DNA序列之间相对熵向量,然后利用BP神经网络方法得到序列之间的相似度,最后采用基于K-Means的聚类方法将同一微生物的DNA序列聚为一类。实验表明我们算法的表现良好。