论文部分内容阅读
昆虫在自然界中数量的繁盛在某种程度上归功于它们生存和生殖过程中至关重要的生理功能——高度灵敏的嗅觉系统。昆虫利用这个灵敏的嗅觉系统在自然界成千上万种气味中辨别出自己倾向或者偏爱的气味成分,从而引起特定的生理和行为反应,如定位寄主食物和栖息场所、探求配偶、交配并产卵、躲避天敌等。研究昆虫的嗅觉系统,有助于阐明昆虫个体间、不同昆虫物种间的化学通讯机制,了解昆虫对寄主的识别、选择机制,为高效的昆虫行为调节剂研发提供理论基础,为高特异性昆虫诱集剂、驱避剂的开发提供可靠的靶标位点。限制昆虫嗅觉系统研究的一大难点是嗅觉基因的高度分异性。嗅觉基因极低的相似性使得同源克隆、探针调取等传统方法无法获取新的基因序列;而嗅觉基因较低的表达量限制了筛选c DNA文库等手段的效率。因此,发展高灵敏度、高通量的嗅觉基因识别方法,对于推动昆虫嗅觉的研究具有重要的意义。NGS测序(Next Generation Sequencing,NGS)技术的诞生,为非模式生物的研究提供了巨大的机遇。测序技术的进步、测序成本的降低使得对非模式生物的组学研究成为可能,基因组、转录组测序已经成为技术可行、成本可接受的研究手段。然而NGS测序产生的海量数据无法使用传统的处理方式研究和利用。本研究建立了一套适用于昆虫的生物信息学分析流程,用以从昆虫基因组、转录组数据中识别嗅觉相关基因。通过应用该分析流程,本文分析鉴定了数种昆虫的嗅觉基因家族,并对一些近缘物种的基因进行了进化分析。主要研究结果包括:1.通过挖掘棉蚜基因组数据,人工拼接潜在的外显子序列,鉴定得到45条假定Ago OR序列模型,其中22条序列编码拥有完整的开放阅读框,9条属假基因。通过序列比较,我们发现Ago OR与Ap OR拥有较高的相似性,其平均值为54.76%;有26个Ago OR序列拥有与其相似度超过50%的Ap OR序列;系统发育分析发现了16个蚜虫同源基因簇,其中一些同源基因簇的物种间相似度超过70%;除高相似度序列外,还发现了5个Ago OR特异延伸簇,其序列相似度均低于50%。通过比较棉蚜和豌豆蚜嗅觉受体基因的外显子/内含子结构,共发现5个共有的保守内含子剪切位点。对离子型受体IR的挖掘构建出13个Ago IR基因模型,其中11条具有完整的开放阅读框;所有Ago IR均具备完整的谷氨酸受体家族S1、S2、PORE结构域,但均不具备完整的α氨基识别位点。对Ago OR、Ago IR的时空表达差异研究表明,Ago OR基因均表达在嗅觉器官集中的头部,在非嗅觉器官表达量极低;而棉蚜IR基因除嗅觉组织外,在足和胸腹中也有表达。2.对二化螟Chilo suppressalis(Walker)成虫触角转录组的分析共识别出Csup OR基因47个、假定Csup IR基因20个、假定Csup OBP基因26个、假定Csup CSP基因21个。其中23条Csup OR序列为全长序列;6个嗅觉受体基因属于二化螟性信息素受体。20个假定Csup IR基因中包含13条全长序列;13个Csup IR发现了相对应的Dmel/Bmor/Slit IR同源物;5个Csup IR序列被认为是二化螟特异的基因。26个假定Csup OBP中的22个拥有典型的6个保守半胱氨酸模式,剩余4个属于minus-C subgroup,其第二个半胱氨酸位点被赖氨酸残基取代。21条假定Csup CSP中的18条序列具有完整的开放阅读框和信号肽,全部假定Csup CSP基因拥有保守的4个半胱氨酸模式和6个α螺旋二级结构。3.在小菜蛾成虫触角转录组中共鉴定出110个嗅觉相关基因,含53个Pxyl OR基因、16个假定Pxyl IR基因、24个假定Pxyl OBP基因、15个假定Pxyl CSP基因和2个假定SNMP基因。53个假定Pxyl OR中的23个拥有完整的开放阅读框;7个Pxyl OR基因被认定为小菜蛾的性信息素受体,并在系统发生树中形成小菜蛾特异簇。16条假定Pxyl IR基因中,5个unigene具有完整的开放阅读框,9个unigene经TMHMM2.0鉴定具有3个跨膜结构域。24个假定气味结合蛋白基因中,包含3个PBP、3个GOBP、18个普通OBP,其中19个Pxyl OBP基因具有完整ORF,22个Pxyl OBP具有信号肽。4.在近缘物种美洲棉铃虫与阿根廷棉铃虫触角转录组中,分别发现了62、60个假定嗅觉受体基因,18、17个假定离子型受体基因和各38个假定气味结合蛋白基因。这些基因经与棉铃虫、烟青虫、二化螟嗅觉基因联合分析,共发现直系同源嗅觉受体17组;同时也发现了一批仅在铃夜蛾属中存在的基因,这些独有的基因可能与铃夜蛾属物种生境中特有的化学物质相关。5.应用phylogenomics方法对美洲棉铃虫、阿根廷棉铃虫、棉铃虫、烟青虫触角转录组进行分析,共发现直系同源基因簇1670个,其功能主要集中于cellular process、metabolic process、single-organism process等维持生理活动相关的过程。对这1670个OG的达尔文选择分析显示,379个OG在达尔文选择选择位点分析中表现出承受正选择压力;这些基因编码的蛋白质主要构成细胞与细胞器,执行结合活性、催化反应及转运等相关功能,并在生物过程调节、着色、定位、刺激反馈等生理过程中呈明显的富集趋势。