微生物种群DNA测序分析与分类

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:arthur2020
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学是最近几年兴起并得到快速发展的交叉学科,它是在生物分子(DNA和蛋白质)数据海量涌现的情况下采用传统的生物学方法无法处理的背景下产生的。生物信息学综合运用数学、计算机科学和生物学的各种工具,包括了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,阐明和理解大量数据所包含的生物学意义,对生物学的发展起到了良好的促进作用。 微生物种群测序技术是近年来发展很快的研究领域。研究人员提取环境(海洋、地下水)中的微生物种群样本,通过DNA序列分析工具对微生物的基因组进行分析,已经发现了许多基因,通过研究这些基因相互之间的作用以及对环境的影响,必将对环境治理和生态系统的研究具有十分重要的意义。 由于微生物种群测序与传统的生物测序有着较大不同,因此传统的测序方法无法解决微生物种群测序中的问题。传统的生物测序中,由于仅对一个生物测序并需要很高的测序精度,因此覆盖率较高,通常为8-10。而在微生物种群测序中,由于物种繁多,测序成本高,不可能对所有生物全部完全测序,因此拼接出来的contig互相之间并不重叠,但是将属于同一物种的contig聚为一类具有很强的生物学意义。由于DNA序列可以看成是由四个字母组成的文本,因此很多字符串和文本处理的技术被引入到DNA序列分析中。目前有很多特征提取方法,但大部分是基于词频率向量的,我们结合微生物种群测序这个具体课题,选择基于信息论的相对熵作为两个DNA序列关系的一种度量。BP神经网络是一种多层误差反传神经网络,它在模式分类领域有着广泛的应用。 本文提出了一种对微生物种群中的DNA序列盲聚类方法。首先我们计算DNA序列之间相对熵向量,然后利用BP神经网络方法得到序列之间的相似度,最后采用基于K-Means的聚类方法将同一微生物的DNA序列聚为一类。实验表明我们算法的表现良好。
其他文献
为了研究对象的行为,人们需要用传感器对对象的行为进行采样,但不幸的是很多情况下很难保证传感器接收到的信号是仅仅是感兴趣的信号,通常情况下传感器接收到的信号会被各种各样
网络处理器是一种专门针对网络数据处理而设计的处理器,其具有可伸缩、可扩展和可编程等特性。网络处理器不仅被用来开发网络路由和交换设备,同时,也被用来开发网络安全设备,如硬
文本分类是指按照预先定义的主题类别,根据文档集合中的每个文档的内容,自动地分类到预先设定的类型集合中,使其对应类型集合中的某一类别或者某几个类别。由于这些类别是可以重
在计算机辅助语言学习CALL(ComputerAssistedLanguageLearning)中,语音处理技术的应用越来越广泛。当今已经存在很多方法来判断和评估发音的准确性,并取得良好的结果。对于口语中
危险化学品种类繁多,且具有易燃、易爆、毒害、腐蚀等特性,对我国的城镇、人群、河流造成不可忽视的威胁,其安全经营、储存、运输等工作显得十分重要。本文旨在上海市科委“现代
软件能力成熟度模型集成(Capability Maturity Model Integration,CMMI)是由美国卡内基·梅隆大学的软件工程研究所提出的一套针对软件过程的管理、改进与评估的模式,其根本
近几年,随着因特网的普及,计算机网络信息安全研究得到飞速的发展。但是,有线网络中的信息安全与无线网络既有联系也有区别。因此,研究无线网络的安全问题,在移动通信的高度
随着当今互联网的飞速发展,互联网上的信息挖掘也变得越来越重要。而在这大量的数据中,深层互联网中的信息不仅从数量还是从质量上来说,都大大地优于表层互联网。然而,相对于表层
随着多媒体通信技术的不断发展,作为人机通信重要方式之一的语音合成技术以其方便、快捷的优点受到了研究者的广泛关注。语音合成的目标是使合成的语音可懂、清晰、自然而富有