【摘 要】
:
随着人类基因组计划和分子测序计划的成功实施,对生命活动至关重要的蛋白质正逐渐揭开它们神秘的面纱。DNA结合蛋白是生物体中不可或缺的蛋白质,在遗传信息转录、DNA复制、重组和修复中都有着举足轻重的作用,且与许多疾病的治疗息息相关。与此同时,如PDB,Swiss-Prot和SCOP等世界著名的生物信息数据库,其每年的蛋白质序列呈指数型增长,人们对高效处理海量生物信息有着更为迫切的需求。而传统的实验室研
论文部分内容阅读
随着人类基因组计划和分子测序计划的成功实施,对生命活动至关重要的蛋白质正逐渐揭开它们神秘的面纱。DNA结合蛋白是生物体中不可或缺的蛋白质,在遗传信息转录、DNA复制、重组和修复中都有着举足轻重的作用,且与许多疾病的治疗息息相关。与此同时,如PDB,Swiss-Prot和SCOP等世界著名的生物信息数据库,其每年的蛋白质序列呈指数型增长,人们对高效处理海量生物信息有着更为迫切的需求。而传统的实验室研究方法,虽可以精确的探索出DNA结合蛋白的结构以及DNA与蛋白质的相互作用的具体模式,但对实验设备和环境的要求极高,耗费的时间和金额巨大。在大数据与人工智能技术飞速发展的时代,设计出高通量的识别DNA结合蛋白方法成为生物信息学的研究热点。本课题以蛋白质的序列信息为基础,结合机器学习与深度学习相关算法,探索出高效的DNA结合蛋白识别模型。主要研究工作如下:(1)本文提出了一种基于多角度特征融合和特征选择的DNA结合蛋白识别方法i DBP-DEP。首先,对蛋白质进化信息谱、二肽组成、理化特性等多角度特征源进行融合并特征选择,从而对蛋白质与DNA能否相互作用进行有效判断;其次,针对蛋白质编码方式相对匮乏的问题,提出了一种新的蛋白质编码特征PSSM-DBT,该特征创造性的将氨基酸二元组的耦合模式与位置特异性得分矩阵相结合,增强了i DBP-DEP模型的表征能力;最后,对该特征编码做了进一步分析,以挖掘其有效表征背后的蕴含的生物学原理。在三个数据集上进行了Jackknife测试和独立测试实验,验证了i DBP-DEP良好的预测性能。(2)本文设计实现了一种融合隐马尔可夫模型矩阵、氨基酸理化特性和蛋白质二级结构的DNA结合蛋白识别方法。首先,摒弃了传统的基于PSI-BLAST生成的进化信息谱,使用新型的隐马尔可夫模型矩阵提取氨基酸相关特征,以高效地表示蛋白质进化信息;其次,使用C-T-D对氨基酸理化特性和SSpro基于序列信息预测的二级结构进行编码,以表征蛋白质全局序列组成信息;最后,使用特征选择算法得到最优特征子集,并将子集输入到SVM和Light GBM分类器,以判断蛋白质能否与DNA发生相互作用。实验结果验证了本文所提方法优越的识别性能,并展示了隐马尔可夫模型作为新型进化信息谱的良好表征能力。(3)基于深度学习模型,本文提出了一种融合多层卷积和双向GRU网络的DNA结合蛋白识别方法。首先,从Swiss Prot数据库中提取并处理出足够多的正负样本作为数据集,以得到充足的训练数据;其次,使用两亲性伪氨基酸组成作为网络输入,以充分表示蛋白质的氨基酸组成和物化属性特征;随后,使用Soft Pool池化方法替代传统池化,以保留蛋白质局部特征信息;最后,在端到端的离线训练中,使得所提模型的卷积模块和双向GRU模块能够学习到对蛋白质深度特征的建模能力和对DNA结合蛋白的识别能力。实验结果表明该方法在识别准确率和稳定性上都有着较好的竞争力。
其他文献
糙米因其健康益处而受到广泛关注,但蒸煮糙米饭口感不佳。蒸煮程序参数与米饭蒸煮品质密切相关。如何通过蒸煮程序调整改善其食味品质,成为糙米饭推广食用的关键,然而相关方面鲜有报道。为此,本课题利用可调程序的电饭煲和可调压力的电压力饭煲,研究不同浸泡条件和压力条件的蒸煮程序对糙米饭食味品质和营养价值的影响,探究糙米饭属性与质构特性的关系。本课题旨在为优化糙米饭蒸煮程序和提高糙米饭蒸煮品质提供信息。主要研究
手性是一种在自然界中普遍存在的性质。手性光学特性主要包括非对称传输、圆二色性和旋光性,但是天然手性材料中的光学特性并不明显。因此使用人工集成的手性超材料来获得这些光学特性已经成为一种趋势,在此基础上制备而成的光吸收器、传感器、偏振器也备受关注。石墨烯超表面是一种二维的超材料,拥有优秀的物理性质、光电性质,以及动态可调的电导率。本论文利用石墨烯材料的可调谐性,基于有限元数值分析方法分别对实现不同光学
氧化型辅酶Ⅰ,即烟酰胺腺嘌呤二核苷酸(Nicotinamide Adenine Dinucleotide,简称NAD+)是参与许多生理过程的必需辅酶。近年来,随着绿色生物技术的发展,NAD+在生物催化领域以及医药行业已经显示出其巨大的应用价值。尽管目前已经开发出构建NAD+高产菌株的生物技术,但是其低生产率仍然阻碍了其大规模的应用。本文利用分子生物学技术对大肠杆菌BL21(DE3)胞内NAD+含量
石墨烯量子点是尺寸小于10 nm的零维碳材料,具有独特的光学、电学性质,被广泛用于光学传感、电化学发光传感、电化学传感、生物成像、催化、抗菌等领域。目前石墨烯量子点存在功能单一、催化活性低、单波长发射、荧光强度弱等局限。因此,设计并制备出具有良好荧光性质和功能的石墨烯量子点显得尤为重要。本论文采用引入功能基团和功能组分两种途径对石墨烯量子点进行功能化,制备出了丝氨酸功能化石墨烯量子点、丝氨酸和组氨
亲和层析技术是对重组蛋白分离纯化的有效手段之一,具有易操作、纯化效率高等特点,但是亲和层析技术通常需要在目的蛋白中引入特殊的亲和标签。工业上常用的去标签手段有内切酶法、化学法等,但处理手段往往耗时耗力且十分昂贵。内含肽作为一种特殊的蛋白质,包含了IN、IC两个互不连续的蛋白片段。内含肽通过一系列重排、转酯、环化等自我催化的反应过程,可以从前体蛋白中切除并将两端的蛋白多肽链(蛋白质外显肽,Extei
来源于粉红螺旋聚孢霉Clonostachys rosea的玉米赤霉烯酮水解酶(ZHD101)可以有效降解谷物农副产品和饲料中的霉菌毒素玉米赤霉烯酮(Zearalenone,ZEN),然而天然酶固有的低热稳定性限制了其应用潜力。传统的定向进化可以对蛋白质的特定性质进行提升,但是建立和筛选突变文库所需的工作量较大。随着结构生物学,计算生物学以及计算机技术的快速发展,不断有先进的蛋白质改造相关算法涌现,
三维荧光光谱技术(Three Dimensional Fluorescence Spectrometry,TDFS;又称Excitation-Emission Matrix,EEM)通过生物样品中荧光分子特征信息表征生物分子间动力学特性、获取蛋白质有效光谱信息。该技术样品预处理简单,快速灵敏,具有较高的应用价值。本研究以实验室前期工作获得的一种以黄素腺嘌呤二核苷酸(FAD)为辅酶的肌氨酸氧化酶(S
用于相互作用检测的高通量生物实验方法的技术进步导致了蛋白质相互作用数据的爆炸式增长,这些数据对不同物种间的生物关系分析将具有重要意义。蛋白质相互作用数据往往被抽象为一个网络,网络比对算法则是进行网络数据分析的重要工具,通过对两个不同物种进行网络比对,将有助于理解细胞组织,发现物种间的进化保守关系和个体差异,从而有助于进行疾病分析、新药靶点治疗和为物种间的注释转移提供重要信息等。目前从实验中提取的蛋
面对蛋白质数据日益海量增长这一趋势,应用生物信息学技术辅助预测蛋白质结构与功能已经成为了一项重要任务。本文利用统计学方法和机器学习方法,研究蛋白质序列的纹理特征及相似性,使用智能算法辅助预测了蛋白质结构类型,对低分泌蛋白质的原始信号肽序列进行了人工优化设计。在第二章中,提出了一种新的蛋白质特征向量构造方法,利用马尔可夫过程将蛋白质序列转换为马尔可夫转移频次矩阵,然后计算其对比度、同质性、相关性和能
现代温室生产过程中提高光合作用效率是促进生产的关键,因此研究植物光合作用的建模和控制非常重要。而目前温室调控策略无法实时反馈作物生理状态,通常依赖于专家经验和先验性数据,忽略了植物对自身生长信息的感知,从而脱离了作物的实时生理需求,因此基于作物实时生长状态的控制策略有重要的研究价值。解释性模型能否行之有效,需要对模型结构进行可靠性分析,以此为依据优化模型结构来保证实验测量值能有效估计待求状态量。当