基于多组学数据利用机器学习预测玉米开花期基因

来源 :华中农业大学 | 被引量 : 0次 | 上传用户:passtestall
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
开花期是植物从营养生长到生殖生长转变的关键时期,与作物产量息息相关。目前对于开花期的研究,在模式植物拟南芥(Arabidopsis thaliana)中已经鉴定出了众多的基因,多条调控途径也被清楚解析。然而,作为主要粮食作物的玉米,其开花期研究相对滞后,鉴定到的基因较少,影响了玉米产量潜力的进一步开发。由于经典的群体定位的方式费力耗时,因此,本研究拟基于多组学数据利用机器学习的方法批量挖掘玉米开花期候选基因,并利用EMS突变体进行功能验证,其结果如下:1、收集整理了用于机器学习建模的训练数据集和预测数据集,前者包含39个功能已知的开花期相关基因和39个非开花期相关基因,预测数据集是功能信息未知的16564个基因样本。两者的特征数据为转录组、翻译组和蛋白互作组的多维组学生物大数据。2、基于训练数据集构建了6个算法模型,经评估后选取了预测效率较高的Adaboost、Logistic Regression和SVM三个算法模型用于预测开花期基因,3者在整合的多组学数据集上的AUC评分分别为0.86±0.10、0.90±0.03、0.86±0.09;评估算法在不同数据基础上的表现发现整合的多组学数据表现最好,翻译组数据次之,其次是转录组数据,最后是蛋白互作组数据。3、从训练数据集的阳性样本和预测得到的基因中随机挑选了48个突变体基因,最终获得了其中的17个并进行了表型的统计与检验,从中鉴定到5个突变体材料表现出与开花期相关,并且发现预测基因验证率与训练基因的验证率几近相同,分别为30%和28.6%。4、预测到的基因Zm00001d011748,即MADS43,发现其包含有与发育相关的结构域TF_MADSbox和TF_Kbox,而该基因的突变体为提前终止型突变,且突变位点就在TF_MADSbox结构域内。该基因突变型较野生型在抽雄期提前了近5天,在散粉期上提前了近4天。最后对MADS43基因的互作网络分析表明,该基因可能参与一个复杂的与多个发育途径相关的网络影响着开花期。本研究基于多组学数据利用机器学习的方法预测到了一批开花期候选基因,部分基因利用EMS突变体进行了功能验证,证实了该方法的有效性,促进了玉米开花期的研究,为玉米的功能基因挖掘提供了新的方式。
其他文献
我国的板栗壳资源丰富,但是已有的处理方式一般为焚烧或者随意丢弃,在造成资源浪费的同时,也造成环境的严重污染。热解是目前常用的板栗壳处理方式,裂解产物有很好的经济、利
强地震动的研究涉及对震源的认识及描述、地震波在介质中的传播和局部场地条件的影响三个方面等一系列问题。在近断裂宽频带地震动场合成中,建立较为合理的震源谱模型是关键问题之一,拐角频率是其中的一个参数。本文以此为研究对象,借助基于有限断层模型的随机地震动合成方法,以实际地震动记录作为检验标准,讨论了动力学拐角频率的改进效果,分析了相应的能量补偿因子对合成地震动场的影响。(1)以日本东北地区(36°N-4
梁的剪切破坏是脆性破坏。当混凝土和钢筋之间的强度不足时,可能会发生剪切破坏。然而,为了确保现有的钢筋混凝土梁在增加载荷时能够抵抗更大的剪切能力,引入了一种加固方法
阿尔凹陷是二连盆地东北部的一个小型箕状断陷湖盆。前人研究表明阿尔凹陷腾一段有深水泥页岩和重力流砂岩等沉积类型,但对其岩石学、物性特征及其分布、预测缺乏深入研究。
背景和目的:益生元和膳食纤维可以改变肠道菌群及其代谢产物,改善非酒精性脂肪性肝病。本研究主要探讨富含低聚果糖及抗性糊精的配方食品治疗非酒精性脂肪性肝病的有效性与安
当水泥基材料固化氯离子的能力有限,难以固化孔溶液中过多的游离态的氯离子时,钢筋混凝土因游离态氯离子含量超过相应的氯离子阈值而发生氯盐侵蚀。若提高水泥基材料固化游离
社会网络是由许多节点依据社会关系构成的一种关系体系。社团检测有助于帮助人们理解网络的拓扑结构并发现一些有意义的群体。现有的社团发现算法主要分为重叠社团发现和非重
多金属氧簇(POMs)是一类独特而且重要的阴离子团簇,特别是近几十年以来,具有高度聚合、纳米尺寸、孔状以及有机-无机修饰的多金属氧簇,突破了经典POMs的研究范围,为新颖POMs的发展注入了新的动力,并且这些POMs具有酸碱性质、亲脂性、有机-无机组分协同作用等特点;在有关报道中也证明多金属氧簇能够有效处理水体污染,以及作为催化剂表现出特定的选择性、高效性、可重复利用且结构稳定等优点。因此,在已有
在VR与人机交互领域,虚拟环境中交互动作的准确性和逼真程度是研究者考虑的主要问题。由于交互动作的准确性比较容易建模,在大多数工作中已经实现了准确性的目标。对于手模型的抓取规划问题,交互动作的准确性具体为抓取动作的稳定性,这在抓取规划方向已经被研究者研究了几十年,取得了很多不错的效果。虽然生成稳定的抓取姿态非常重要,但是只考虑稳定性往往会导致抓取姿态不符合自然的人类抓取习惯,与交互动作的逼真程度要求
油茶果具有较高的食用和工业价值,油茶产业属于创新型的林业经济,具有十分广阔的发展前景。现阶段油茶果的采收主要依靠人力进行,人力劳作的缺陷已经严重制约了油茶产业的发