基于NGS的生物信息平台Cbrowse的实现与应用

来源 :厦门大学 | 被引量 : 0次 | 上传用户:davidzn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
DNA测序技术是现代生物学研究的重要手段,近年来,随着下一代测序技术的问世,测序通量急速增长,测序成本直线下跌,使得对动植物分子生物相关问题的分析研究变得切实可行。然而,如何分析如此高通量数据集面临前着所未有的挑战。目前就无标准基因组测序的非模式生物序列研究而言,亟需建立一套数据可视化多方位数据分析的生物信息平台。本文针对下一代测序技术(NGS)下非模式生物序列数据特征,设计并实现了一套综合生物信息网络分析平台CBrowse。论文主要研究内容如下:  (1)阐述了国内外的生物信息平台的研究现状,针对下一代测序技术下的非模式生物序列数据,提出了一套生物信息分析平台CBrowse解决方案,并重点阐述了CBrowse的系统设计。  (2)该平台是在Linux+Apache2+MySQL+PHP下搭建的,它以MySQL作为后台数据库,采用B/S三层架构,应用Dojo、MapEasy前端AJAX框架,实现了一套综合生物信息网络分析平台CBrowse。  (3)提出了基于SAM/BAM的数据处理流程,它以SAM/BAM作为数据存储交互容器,采用Samtools建立高效的三层索引,综合Phobos、Samtools、Bcftools,blast等生物信息工具,以及自主开发C++生物运行库,对元数据碱基多态性和简单重复序列进行多方位检测分析,率先将类GoogleMap引入基因图谱展示,实现了图谱快速定位、平滑拖动、位点高亮显示等多项功能。  (4)综合NCBI的GenBank的花生核苷酸数据集、SRA数据集和中国农科院发布的转录组数据集,提出了一系列数据加工整合处理方案,形成了首套花生Contig数据集;并将该数据集与CBrowse、自主开发的WebBlast+和SequenceViewer等生物信息组件相结合,发布了第一套网络花生Contigs数据库PeanutDB。  总体上,CBrowse实现了元数据的多方位分析,可辅助生物工作者直观理解生物实验数据,有利于加深理解基因表达调控及进化机制的研究,且为后续不同物种序列分析及数据库搭建提供了思路和基础。
其他文献
随着我国城市化建设规模的扩大,主要大城市人口数量和机动车的保有量不断增加,导致各个大城市道路交通拥堵。ITS(Intelligent Transport System,智能交通系统)的兴起一定程度上
多机器人任务分配能够合理调度机器人,提高任务的完成效率,减少任务完成过程中系统的代价,是多机器人系统研究的重要内容。  首先,在深入了解国内外研究现状的基础上根据需求,建
本文针对真核生物的DNA复制过程的仿真,提出了一种基于离散事件的仿真方法。真核生物的DNA复制过程是从基因组上的多个位点开始的,这些位点被称作复制源点。复制过程的开始是由
多属性决策(MADM)一般是利用已有的决策信息,通过一定的方式对有限个备选方案进行排序并择优,广泛应用于工程设计,经济,管理和军事等诸多领域中,它是决策理论与方法研究的一个重要
针铁矿法沉铁过程出口Fe2+浓度是生产中最重要的工艺指标。由于Fe2+浓度无法在线检测,而且沉铁过程具有很强的非线性、多变量、时滞等特点,从而造成针铁矿法沉铁过程Fe2+浓度
遥感图像变化检测,是指通过分析和提取同一地区不同时相的遥感图像间存在的电磁波谱特征差异或空间结构特征差异,从而识别物体的状态变化或现象变化的过程。遥感图像变化检测方
无人机在民用和军用上的不断扩大,使得无人机不断向着速度更快、气动特性更加复杂、性能更加优越的方向发展,由此形成的无人机在大空域的机动飞行是一个强耦合、强非线性时变系
脉诊客观化是中医学研究的重要课题之一。研究者们一直希望能对中医脉象进行数字化采集和分析,排除医生判断脉象时的主观性和随意性。基于此,本文在脉象信号的数字化采集、数字
二维凝胶电泳技术是生命科学的重要研究方法之一,其主要内容为提取凝胶中的差异蛋白质点,而二维凝胶电泳图像的蛋白质点匹配技术是差异蛋白质点提取的关键步骤,匹配精确度直接影
随着我国特高压电网建设的全面推进,在建设特高压过程中电磁环境问题变得越来越突出,严重制约了特高压技术的发展。输电线路电晕放电是引起电磁环境问题主要原因之一,针对这一现象,论文立足于研究电晕放电电流的特征及求解方法,建立电晕放电模型,以期为减小电晕放电辐射提供理论指导。论文阐述了国内外特高压输电技术的发展现状,讨论了输电线路电晕放电带来的电磁环境问题,并总结研究电晕电磁干扰的主要方法,包括试验法,即