论文部分内容阅读
油菜(Brassica napus L.)是仅次于大豆和棕榈的第三大油料作物。我国的油菜种植面积和产量曾经均居世界首位,但与欧洲和加拿大等相比,我国的油菜籽含油量和产量偏低,种植油菜的比较效益低,导致近年来我国的油菜种植面积大幅度下降,油菜籽严重依赖进口。通过品种遗传改良,提高我国油菜产量和产油量是提振油菜产业的根本出路。高质量的参考基因组对油菜重要农艺性状基因定位和克隆、品种改良具有重要意义。目前已发表两个油菜品种Darmor-bzh和中双11号的参考基因组,这两个基因组主要是以全基因组鸟枪法测序策略和第二代测序技术完成的,基因组覆盖度为80%左右。这两个参考基因组的共同缺点是基因组覆盖度不高、还有很多scaffold没有定位到染色体上、存在组装错误和大量的gap区域,给基因定位和克隆、染色体结构分析带来很多困惑。因此有必要利用逐步克隆法结合新一代测序技术构建一个高质量的油菜参考基因组。本研究中,我们基于中双11号(ZS11)BAC文库利用whole genome profiling方法构建BAC重叠群,并将BAC重叠群定位到染色体上,获得物理图。根据图谱上的最小路径挑选BAC进行测序。同时,用PacBio Sequel测序平台对中双11号进行全基因组测序,并用测序获得的序列辅助组装每个BAC,结果如下:(1)物理图谱构建:中双11号BAC文库一共包含有73,728个质粒克隆,存放于192个384孔板中,克隆的平均插入片段长度为120Kb左右。每6个384孔板按“2(列)×3(行)”的格式排列,长、宽方向都为48个克隆。将每行、每列的所有克隆分别混合形成48个行的pool混合池、48个列的pool混合池,存放于96孔板上形成一个单元。整个BAC文库共混合成32个单元,共计3,072个pool。随后,提取pool混池中的质粒、利用SacI/MseI两种酶进行完全酶切,然后加上接头和barcode序列进行NGS双端测序。测序一共得到1.02Gb PE150(paired-end 150bp)reads,去掉大肠杆菌污染的reads(4.4%),将PE150 reads按照90bp×2的长度截短生成tag标签,并根据barcode序列和行列交叉将所有tag标签分配到各个BAC克隆上。整个BAC文库,tag标签在BAC中的分布范围在0220之间,10,274个BAC没有tag标签,剩下63,454个BAC平均每个克隆含有16个tag标签。最后通过FPC软件,设置FPC cutoff值为10-15,根据BAC之间的共有tag标签一共构建了4,049个BAC重叠群(contigs),共包含42,331个BAC,另外21,123个没有锚定到contigs的BAC,称为singleton。Contigs中BAC数目分布在0142之间,平均每个contig含有10个BAC克隆。基于实验室NAM群体构建的高密度遗传图,利用37,607个遗传标记将2,934(72.46%)个contigs定位到基因组染色体。(2)BAC挑选、NGS测序:从物理图的最小路径上挑选出10,846个BAC进行二代测序。在开始大规模测序前,我们先评估了不同测序深度对BAC组装的影响,发现测序深度为500×时组装效果最好。分别构建每个BAC克隆的测序文库,平均插入片段为400bp,读长为PE150,测序深度500×,一共得到得到266.74Gb reads,去掉质粒载体、大肠杆菌以及PCR重复后的净数据约为186.9Gb。(3)全基因组三代测序:利用PacBio Sequel平台对中双11号进行全基因组三代测序。测序深度80×,共得到97.07Gb subreads,subreads N50为11,767bp,平均读长为8,378bp。(4)BAC组装:经过k-mer测试和组装软件选择测试,最终利用SOAPdenovo软件对挑选出的10,846个BAC进行NGS组装,选择k-mer=95作为组装输入参数,组装得到contigs N50平均长度约为10Kb。随后通过blasr软件比对contigs和subreads,按照(a)小于10Kb的contigs比对长度大于自身长度的90%;(b)大于10Kb的contigs比对长度大于自身长度的70%;(c)subreads累计比对长度大于自身长度的50%的条件抽取符合的subreads,平均每个BAC获得的subreads数目为1,800。利用每个BAC抽取的三代测序数据进行组装,共10,764个BAC获得组装结果,其中8,901个BAC克隆组装成一条完整的序列,1,665个BAC克隆组装成2-3条片段,contigs N50平均长度为120Kb。(5)结果评估:利用随机函数随机抽取6个BAC的组装结果,通过bowtie软件比对,将其NGS数据回贴到组装结果上,检测reads在组装结果的覆盖深度是否均匀、覆盖范围是否全面,最后发现6个克隆的覆盖范围全面且未出现极端覆盖深度的现象,说明BAC克隆组装正确;将10,764个BAC组装结果与已发表的中双11号参考基因组比对,结果显示BAC克隆覆盖了已发表的中双11号参考基因组的67.56%,两者序列相似度达到99%,说明BAC克隆组装准确。