论文部分内容阅读
本论文由两个部分组成。第一部分讨论深度问题,第二部分讨论进化问题。
蛋白质残基的深度问题一直是蛋白质结构研究领域的一个重要问题。目前在生物学中已经有一些方法定义。我们在这篇论文中利用统计深度函数,用几何学的方法给出了一种新的残基深度的定义与计算方法。并得到以下结论:
1.给出蛋白质中氨基酸深度倾向性因子的定义。深度倾向性因子不仅跟氨基酸的疏水性有很大的相关性。另外跟氨基酸的带电性和极性等物化性质也有很大的关系,我们给出了它们的回归特征。
2.我们利用深度倾向性因子,对蛋白质的系列特征进行分析,如蛋白质半径跟蛋白质残基数目之间的关系;蛋白质的残基的总数目和表面残基数目的线性关系;并且得到蛋白质的平均深度和最深点深度与蛋白质残基数目呈线性关系。
3.通过统计分析,我们给出了多肽链的深度在蛋白质三维结构中的预测方法,并且得到了一批总在蛋白质表面的四肽链。
4.最后我们给出了蛋白质空间形态中的一些重要特征的计算方法:“空洞”与“口袋”的小球滚动法。
论文的第二部分主要是研究进化的数学模型的应用和基因各个位置之间进化速率的关系。我们首先介绍了在进化和遗传推断过程中的数学模型。然后给出了二重比对SPA算法的一个扩展,把SPA算法推广到蛋白质编码基因的比对中。我们利用经典的密码子进化模型,得到了密码子两两的得分矩阵,并用该矩阵对SPA算法进行了修改,使其更加合理、有效地应用于蛋白质编码基因的比对。
然后我们分析了123种哺乳动物线粒体基因组的所有13个编码蛋白的基因。用香农熵来对它们的进化速率进行估计。通过分析,我们发现在这些编码蛋白基因的密码子中,第三个密码子位置的进化速率明显不服从Gamma分布,我们推断进化速率在第三个密码子位置上服从Gamma和正态的混合分布。我们还考察了基因密码子中不同密码子位置进化速率的相关性,发现三个密码子位置之间进化速率都有显著的相关性,尤其是第一个位置和第二个位置,它们呈很强的正相关。
最后我们讨论了Markov约束条件下的最大信息传递问题。如果ξ,ζ二个已知随机变量,求随机变量η,使ξ→η→ζ是一个Markov链,而且要求它们的交互信息I(ξ,ζ;η)为最大,我们称这个问题为在Markov约束条件下的最大信息传递问题。该问题在生物进化研究中有重要意义,我们把它归结为一个信息度量的优化问题,并给出了它的求解性质与算法。