论文部分内容阅读
DNA测序技术是现代生物学研究的重要手段,近年来,随着下一代测序技术的问世,测序通量急速增长,测序成本直线下跌,使得对动植物分子生物相关问题的分析研究变得切实可行。然而,如何分析如此高通量数据集面临前着所未有的挑战。目前就无标准基因组测序的非模式生物序列研究而言,亟需建立一套数据可视化多方位数据分析的生物信息平台。本文针对下一代测序技术(NGS)下非模式生物序列数据特征,设计并实现了一套综合生物信息网络分析平台CBrowse。论文主要研究内容如下: (1)阐述了国内外的生物信息平台的研究现状,针对下一代测序技术下的非模式生物序列数据,提出了一套生物信息分析平台CBrowse解决方案,并重点阐述了CBrowse的系统设计。 (2)该平台是在Linux+Apache2+MySQL+PHP下搭建的,它以MySQL作为后台数据库,采用B/S三层架构,应用Dojo、MapEasy前端AJAX框架,实现了一套综合生物信息网络分析平台CBrowse。 (3)提出了基于SAM/BAM的数据处理流程,它以SAM/BAM作为数据存储交互容器,采用Samtools建立高效的三层索引,综合Phobos、Samtools、Bcftools,blast等生物信息工具,以及自主开发C++生物运行库,对元数据碱基多态性和简单重复序列进行多方位检测分析,率先将类GoogleMap引入基因图谱展示,实现了图谱快速定位、平滑拖动、位点高亮显示等多项功能。 (4)综合NCBI的GenBank的花生核苷酸数据集、SRA数据集和中国农科院发布的转录组数据集,提出了一系列数据加工整合处理方案,形成了首套花生Contig数据集;并将该数据集与CBrowse、自主开发的WebBlast+和SequenceViewer等生物信息组件相结合,发布了第一套网络花生Contigs数据库PeanutDB。 总体上,CBrowse实现了元数据的多方位分析,可辅助生物工作者直观理解生物实验数据,有利于加深理解基因表达调控及进化机制的研究,且为后续不同物种序列分析及数据库搭建提供了思路和基础。