基于BAC文库指纹特征的油菜物理图谱构建及其测序、组装

来源 :华中农业大学 | 被引量 : 0次 | 上传用户:Phoenix_Ex
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
油菜(Brassica napus L.)是仅次于大豆和棕榈的第三大油料作物。我国的油菜种植面积和产量曾经均居世界首位,但与欧洲和加拿大等相比,我国的油菜籽含油量和产量偏低,种植油菜的比较效益低,导致近年来我国的油菜种植面积大幅度下降,油菜籽严重依赖进口。通过品种遗传改良,提高我国油菜产量和产油量是提振油菜产业的根本出路。高质量的参考基因组对油菜重要农艺性状基因定位和克隆、品种改良具有重要意义。目前已发表两个油菜品种Darmor-bzh和中双11号的参考基因组,这两个基因组主要是以全基因组鸟枪法测序策略和第二代测序技术完成的,基因组覆盖度为80%左右。这两个参考基因组的共同缺点是基因组覆盖度不高、还有很多scaffold没有定位到染色体上、存在组装错误和大量的gap区域,给基因定位和克隆、染色体结构分析带来很多困惑。因此有必要利用逐步克隆法结合新一代测序技术构建一个高质量的油菜参考基因组。本研究中,我们基于中双11号(ZS11)BAC文库利用whole genome profiling方法构建BAC重叠群,并将BAC重叠群定位到染色体上,获得物理图。根据图谱上的最小路径挑选BAC进行测序。同时,用PacBio Sequel测序平台对中双11号进行全基因组测序,并用测序获得的序列辅助组装每个BAC,结果如下:(1)物理图谱构建:中双11号BAC文库一共包含有73,728个质粒克隆,存放于192个384孔板中,克隆的平均插入片段长度为120Kb左右。每6个384孔板按“2(列)×3(行)”的格式排列,长、宽方向都为48个克隆。将每行、每列的所有克隆分别混合形成48个行的pool混合池、48个列的pool混合池,存放于96孔板上形成一个单元。整个BAC文库共混合成32个单元,共计3,072个pool。随后,提取pool混池中的质粒、利用SacI/MseI两种酶进行完全酶切,然后加上接头和barcode序列进行NGS双端测序。测序一共得到1.02Gb PE150(paired-end 150bp)reads,去掉大肠杆菌污染的reads(4.4%),将PE150 reads按照90bp×2的长度截短生成tag标签,并根据barcode序列和行列交叉将所有tag标签分配到各个BAC克隆上。整个BAC文库,tag标签在BAC中的分布范围在0220之间,10,274个BAC没有tag标签,剩下63,454个BAC平均每个克隆含有16个tag标签。最后通过FPC软件,设置FPC cutoff值为10-15,根据BAC之间的共有tag标签一共构建了4,049个BAC重叠群(contigs),共包含42,331个BAC,另外21,123个没有锚定到contigs的BAC,称为singleton。Contigs中BAC数目分布在0142之间,平均每个contig含有10个BAC克隆。基于实验室NAM群体构建的高密度遗传图,利用37,607个遗传标记将2,934(72.46%)个contigs定位到基因组染色体。(2)BAC挑选、NGS测序:从物理图的最小路径上挑选出10,846个BAC进行二代测序。在开始大规模测序前,我们先评估了不同测序深度对BAC组装的影响,发现测序深度为500×时组装效果最好。分别构建每个BAC克隆的测序文库,平均插入片段为400bp,读长为PE150,测序深度500×,一共得到得到266.74Gb reads,去掉质粒载体、大肠杆菌以及PCR重复后的净数据约为186.9Gb。(3)全基因组三代测序:利用PacBio Sequel平台对中双11号进行全基因组三代测序。测序深度80×,共得到97.07Gb subreads,subreads N50为11,767bp,平均读长为8,378bp。(4)BAC组装:经过k-mer测试和组装软件选择测试,最终利用SOAPdenovo软件对挑选出的10,846个BAC进行NGS组装,选择k-mer=95作为组装输入参数,组装得到contigs N50平均长度约为10Kb。随后通过blasr软件比对contigs和subreads,按照(a)小于10Kb的contigs比对长度大于自身长度的90%;(b)大于10Kb的contigs比对长度大于自身长度的70%;(c)subreads累计比对长度大于自身长度的50%的条件抽取符合的subreads,平均每个BAC获得的subreads数目为1,800。利用每个BAC抽取的三代测序数据进行组装,共10,764个BAC获得组装结果,其中8,901个BAC克隆组装成一条完整的序列,1,665个BAC克隆组装成2-3条片段,contigs N50平均长度为120Kb。(5)结果评估:利用随机函数随机抽取6个BAC的组装结果,通过bowtie软件比对,将其NGS数据回贴到组装结果上,检测reads在组装结果的覆盖深度是否均匀、覆盖范围是否全面,最后发现6个克隆的覆盖范围全面且未出现极端覆盖深度的现象,说明BAC克隆组装正确;将10,764个BAC组装结果与已发表的中双11号参考基因组比对,结果显示BAC克隆覆盖了已发表的中双11号参考基因组的67.56%,两者序列相似度达到99%,说明BAC克隆组装准确。
其他文献
糖尿病与骨质疏松症(osteoporosis, OP)是当今社会的高发病,骨质疏松是糖尿病常见的并发症之一,随着全球及我国糖尿病发病率的逐年上升,糖尿病病程延长、年龄增加,糖尿病合并
玉米在施肥过程中,不仅要考虑籽粒需肥量和土壤肥力,而且要全面考虑品种、密度、生产条件等多种因素。
在悠久的版画历史中,刀法一直是木版画中最为突出的表现形式和显性的特征。刀法在人类早期文明遗迹中就已出现,中国传统木版画以复制印刷为主要目的,刀法追求中国画线条笔意;西方
<正> 一、绪论在集装箱船的设计过程中,完整稳性始终是设计者着重考虑的性能之一。尤其在初步确定集装箱船的主要要素时,设计者迫切希望能了解主要要素和大倾角稳性之间的关
<正> 9月25日,省政府召开全省征兵工作会议。王先民副省长就如何进一步做好今年征兵工作强调4点意见:首先,要统一思想,提高认识,进一步增强做好征兵工作的责任感和使命感做好
蚌埠双墩遗址出土的陶器刻划符号是研究早期文字形成和文明发展的重要材料。其中,几何类刻划符号具有表现某些原始思想观念和简单记事的功能。水纹系列刻划符号主要是表现水
在现实网络舆情环境中,政府部门在网络平台上的公信力常常受到质疑。文章选取舆情热点事件对网络舆情环境下政府公信力的影响作出深入剖析并得出结论:政府若意图在网络舆论战
目的:近年来,卵巢储备功能减退(decreasing ovarian reserve, DOR)的发病率呈上升趋势,且严重影响患者的生活质量和生育功能。本研究通过对肾虚肝郁型DOR患者采用中药和西药两
本研究共分两部分。第一部分射频消融影响椎管内及椎体内温度的实验研究目的:研究经皮射频消融术治疗椎体恶性肿瘤时对椎管内及椎体内温度的影响。材料和方法:1.建立椎体肿瘤模
<正> 中国电子信息产业发展研究院(CCID)赛迪资讯顾问公司于2000年9月至12月期间对北京、上海、广州、成都、武汉、西安、沈阳等城市互联网用户情况作了媒体问卷调查和入户调