【摘 要】
:
本文由两个主要部分组成,每个部分研究了生物信息学中的一个基本问题。一个问题是区分编码序列和非编码序列;另一个是四种蛋白质结构,全-α类,全-β类,α+β类和α/β类,的分类。然后,我们用线性分类器给出了本文中所提出方法的区分率。对于区分编码序列和非编码序列的问题,基于一种我们课题组之前所提出的DNA核苷酸序列的数字序列表示方式[65]和编码序列中的不完全的3周期性[15],我们用Fourier变换
论文部分内容阅读
本文由两个主要部分组成,每个部分研究了生物信息学中的一个基本问题。一个问题是区分编码序列和非编码序列;另一个是四种蛋白质结构,全-α类,全-β类,α+β类和α/β类,的分类。然后,我们用线性分类器给出了本文中所提出方法的区分率。对于区分编码序列和非编码序列的问题,基于一种我们课题组之前所提出的DNA核苷酸序列的数字序列表示方式[65]和编码序列中的不完全的3周期性[15],我们用Fourier变换在完全基因组中进行编码序列和非编码序列的区分。编码序列或者非编码序列的数字序列在Fourier变换后得到的三个指数,Px(?)(1),Px(?)(1/3)和Px(?)(1/36),被选出来构造参数空间。每个编码序列或者非编码序列被表示为这个三维参数空间之中的一个点。在这个参数空间中我们可以看到对应于一些原核生物的完全基因组中的编码序列和非编码序列可以被粗略的分开到不同的区域。如果一个核苷酸序列,它对应的点(Px(?)(1),Px(?)(1/3),Px(?)(1/36))落在了对应于编码序列的区域,我们就认为这个序列是编码序列;否则,我们就认为它是非编码序列。Fisher区分算法被用来给出一个区分准确率。当前方法所得到的51种原核生物的区分准确率pc,pnc,qc和qnc分别为81.43%,92.05%,81.07%和91.87%[67]。对于蛋白质结构分类的问题,我们试图从两个不同的方面来解决这个问题。我们用递归定量分析(recurrence quantification analysis(RQA))来研究蛋白质Cα的坐标分布来区分蛋白质结构类。我们同样得到三个参数%determl,%determ21和%determ22来构造参数空间。我们提出了一种方法来把四类蛋白质结构一类一类的区分出来,并用Fisher区分算法来量化这个方法的聚类效果,数据结果显示区分效果令人满意[66]。另一方面,我们用局部H(o|¨)lder指数来提取蛋白质的局部信息。我们把基于一个6-字母的氨基酸模型(6-letters model of amino acids)[9]的蛋白质序列数值表达看成一个时间序列,并估计它的局部H(o|¨)lder指数。接下来,我们可以得到这些指数的概率分布。我们用一些概率密度值作为我们在Matlab中利用神经网络工具箱建立的一个感知器的特征向量来区分四种蛋白质结构类,全-α类,全-β类,α+β类和α/β类。我们最终可以看到所选取的49个大蛋白质可以被100%正确的区分开来[68]。
其他文献
二阶常微分方程初值问题在科学与工程的许多领域中出现,如天体力学、量子力学、理论物理与化学等,它通常具有周期解或振荡解,这给数值求解带来了困难。因此,近年来,二阶常微分方程数值方法的研究备受人们的关注,并取得了大量的研究成果。Runge-Kutta-Nystr(o|¨)m方法是求解二阶常微分方程的常用的数值方法。本文主要考虑对角隐式Runge-Kutta-Nystr(o|¨)m方法,这类方法对于求解
在本实验中,来自酿酒酵母HS1185的胞外β—1,3—葡聚糖基因被插入TA克隆载体pMD-18中,并被转入大肠杆菌JM109中。重组质粒命名为pMDT-18-GLU。通过Xho I和Nco I双酶切质粒pMDT-18-GLU获得的β—1,3—葡聚糖基因片段插入pET22b(+)的Xho I和Nco I酶切位点。此重组质粒命名为pET22b/GLU。质粒pET22b-GLU被转入大肠杆菌BL21(D
本文讨论一个Leray型问题.证明了二维非单连通管型区域上带slip边界条件,在无穷远处有给定速度的不可压Navier-Stokes方程稳定解的存在性和正则性.Amick和Amick-Fraenkel曾讨论了单连通管型区域上带Dirichlet边界条件不可压Navier-Stokes稳定流的存在性.Mucha则证明了某些二维管型区域上带slip边界条件的Navier-Stokes稳定流的存在性和正
本文采用2011—2019年间沪深A股上市公司为研究样本,实证检验了数字化转型对企业年报可读性的影响。研究发现,企业数字化转型程度越高,企业的年报可读性越高。进一步研究发现,数字化转型提升企业动态能力、提高分析师关注,改善了企业年报可读性,继而降低了企业财务风险。内部控制质量高、行业竞争力强的企业,数字化转型对企业年报可读性的影响更明显。本文结论发现了数字化转型缓解信息不对称的相关表现及其影响机制
反应扩散方程在实际当中有着广泛的应用,例如地下水流问题、生化模型问题、环境污染问题以及油藏的合理开采等等。关于它的数值方法的研究,科学家们在这方面做了大量的工作。Li Wu和陈艳萍等学者针对具有较小扩散系数半线性反应扩散方程提出了几种扩张混合有限元两层网格算法。两层网格算法的基本思想来自于许进超教授早年关于标准有限元两层网格算法的研究工作,主要利用牛顿迭代对非线性代数系统进行线性化,并利用校正技巧
DNA对于生命遗传密码的翻译、转录、复制起着非常重要的作用。研究金属配合物与DNA相互作用的键合机理将有助于人们从分子水平上了解生命现象的本质,在生命科学上具有重要的理论意义和潜在的应用价值。近年来,由于钌(II)多吡啶配合物在光化学、光物理及生物化学等领域的广泛应用,对这类配合物的研究已经引起了人们广泛的关注,特别是它们在生物无机领域的重要应用。例如:充当识别DNA结构的探针;DNA介导的电子转
粘性流体运动有层流和湍流两种决然不同的运动状态,随着Reynold数(C/ν)的增大,层流变为湍流,对湍流来说每一点的速度随时间的发展和空间的不同随机的变化,对于这类随机现象,我们可以应用统计平均的方法研究流体平均运动的变化规律.本文讨论Navier-Stokes方程的平稳统计解在ν→0时的极限,证明具阻尼不可压Navier-Stokes方程的平稳统计解弱收敛于相应Euler方程的重整化平稳统计解
从已有的文献中,我们知道Kakeya猜想与Kakeya极大函数猜想有密切的联系,即Kakeya极大函数猜想的解决意味着Kakeya猜想的解决。很多文献对各类Kakeya极大函数进行了大量的估计。人们试图从Kakeya极大函数入手,来解决Kakeya猜想。本文试图建立交换子型的Kakeya极大函数的估计。本文证明了一类乘积形式函数的交换子型Kakeya极大函数的加权估计。本文分为两章。第一章先简单的
设M为既约幺半群,以G为其单位群,令B(?)G为一Borel子群,T(?)B为一极大环面子群,W=NG(T)/T为Weyl群,令(?)为NG(T)的Zariski闭包,则R=(?)/T称为Renner幺半群,它是一有限可逆幺半群,以W为其单位群。设K是一代数封闭域,K*表示K的乘法群,G为单代数群,ρ∶G→GLn是G的有理不可约表示,且只有有限核,那么G=K*ρ(G0)是一既约代数群,M(ρ)=(
用DLR型k-ε紊流模型·BFC(边界拟合曲线坐标变换)法,对前接管和总扩散角为8°、扩散度为4的锥形渐扩管内充分发展的不可压缩粘性紊流场进行了较高精度的数值仿真研究。应用实例的入口雷诺数分别为2.93×10~5和1.16×10~5。在近壁密集型径向适体非均匀网格系统等条件下,增加全流场网格数,近壁加密网格,尤其是在粘性底层适当增加网格点数,经18种算例的数值实验,诊断分析不同模型常数σ1和C2,