论文部分内容阅读
作为二代测序技术之一,转录组测序技术已经广泛应用于许多物种的基因差异表达和基因注释研究中。现有多种转录组测序数据差异表达分析软件,但分析步骤多而且复杂,并且不同的分析方案其运行结果差别较大。为了方便研究者自己使用软件进行差异表达计算分析,并从多个计算结果中选择有利于解释研究对象基因表达机理的结果,本文编写了一个集成的Perl软件包。使用该软件包对在正常和干旱胁迫两种条件下的小叶杨(Populus simonii)和美洲黑杨(P.deltoides)‘I-69’转录组测序数据进行了多种策略的差异表达分析,并对相应的结果进行了比较。本研究获得的主要结果如下:(1)针对一般的转录组测序数据,考虑了研究对象有无参考基因组序列、样本数据是否有重复、单端还是双端测序数据、不同的基因表达量计算方法以及不同的基因差异表达显著性检验方法等因素,利用Trinity、Cufflinks和StringTie等与转录组数据分析相关的软件,使用Perl语言开发出了集成的转录组测序数据分析软件包findDEG。该软件包有十多种分析方案可供选择,采用一键的方式进行数据计算,避免了中间环节参数输入和结果利用等操作步骤,极大地方便了研究者的使用,软件的网址为:http://www.bioseqdata.com/find DEG/findDEG.htm。(2)采用有参考基因组序列的分析策略分析了杨树转录组测序数据,结果小叶杨和美洲黑杨‘I-69’在正常和干旱胁迫两种条件下有70%以上的短序列(reads)比对到毛果杨(P.trichocarpa)参考基因组序列上;正常条件下小叶杨数据组装出了35,886条转录本和28,002条基因,干旱胁迫条件下有36,591条转录本和28,825条基因;正常条件下美洲黑杨‘I-69’数据得到了38,678条转录本和29,178条基因,干旱胁迫条件下有41,415条转录本和30,693条基因。使用旧版Cufflinks(v2.1.1)软件在小叶杨中筛选出了33个差异表达基因,而在美洲黑杨‘I-69’中筛选出了28个差异表达基因。使用新版Cufflinks(v2.2.1)在小叶杨中筛选出了53个差异表达基因,而在美洲黑杨‘I-69’中筛选出了28个差异表达基因。(3)采用无参考基因组序列的分析策略,将小叶杨转录组测序数据进行从头拼接,结果拼接出了基因138,936条,N50长度为1,336bp;获得231,139转录本,N50长度为1,737bp。将美洲黑杨‘I-69’转录组测序数据进行拼接,得到109,116基因,N50长度为1,582bp;获得227,490转录本,N50长度为1,862bp。同时,在小叶杨中发现了1,641条差异表达基因和2,015条差异表达转录本,在美洲黑杨‘I-69’中发现了1,752条差异表达基因和2,096条差异表达转录本。(4)将差异表达基因进行GO注释。从小叶杨和美洲黑杨‘I-69’中筛选出的差异表达基因都注释到了与干旱相关的注释条目。总之,本研究开发的转录组测序数据分析集成软件包findDEG,其功能齐全,操作简单,极大地方便了广大研究者的使用。从杨树实际数据分析结果可以看出,不同转录组数据分析方案其结果差别较大。建议研究者在转录组测序研究中使用二种以上分析策略,在多种计算方案结果中选择较好的来解释研究对象的基因表达机理。