【摘 要】
:
蛋白质-蛋白质相互作用在很多生物进程中扮演着重要角色,是所有生物体保持正常生理功能的基础。虽然生物实验方法积累了大量的蛋白质相互作用数据,但是实验结果通常存在不同
论文部分内容阅读
蛋白质-蛋白质相互作用在很多生物进程中扮演着重要角色,是所有生物体保持正常生理功能的基础。虽然生物实验方法积累了大量的蛋白质相互作用数据,但是实验结果通常存在不同程度的假阳性和假阴性。近年来以机器学习为代表的计算方法在蛋白质相互作用预测方面得到了广泛应用,许多研究人员利用机器学习和蛋白质序列特征编码方法对其进行预测,都取得了较高的预测准确率。事实上,经过实验发现多数方法的预测准确率都被高估,且预测结果会受到数据集的影响。本文使用多种机器学习算法,结合自动协方差序列编码方法对人类的蛋白质相互作用进行预测,研究数据集中蛋白质的重复性对预测结果的影响。首先利用图论中的稠密子图和稀疏子图的挖掘原理以及简单图的最大匹配算法构造多个具有不同的蛋白质重复性的正数据集,利用图的邻接矩阵相关运算对每个正数据集构造一系列具有不同蛋白质重复性的负数据集,将每一个正数据集和其相应的负数据集组合成实验数据集。然后利用自动协方差序列编码方法对实验数据集进行编码,用C4.5、随机森林、朴素贝叶斯、K-近邻四种机器学习算法对编码后的数据进行训练和预测。最后对预测结果进行分析。实验结果显示,不同的实验数据集具有不同的预测准确率,随着实验数据集中蛋白质样本的重复性由高到低的变化,预测准确率也呈现相应的变化趋势。由此,得出结论:利用机器学习预测蛋白质相互作用,预测结果会受到样本的重复性(蛋白质的重复性)的影响,样本的重复性越高,机器学习预测的准确率会越高;利用机器学习预测类似于蛋白质相互作用这类具有样本重复性的问题时要考虑样本重复性对预测结果的影响。
其他文献
<正>"兵者,国之大事,不可不查"。军事对一个国家的生死存亡意义重大,与军事斗争相关的各种因素对安全的意义无可比拟。粮食作为军队后勤的重要物资,对军事斗争的影响也是巨大
<正>随着餐饮业市场竞争的加剧,酒店餐饮面临着诸多的挑战,社会餐饮和酒店餐饮之争也一直是个热点话题。酒店餐饮只有不断的创新,才能寻求可持续发展,在激烈的竞争中立于不败
国内外关于学术不当行为的界定虽在表述上有所差异,但本质上并无大分歧.然而,对于学术不当行为的规制,我国在立法、机构设置、处罚方式与力度等方面与发达国家有较大的差异.
ELISA(酶联免疫吸附测定法)检测结果是否准确可靠,除了有优质的试剂,良好的仪器,正确的操作在ELISA检测中是非常重要的一步.标本采集和保存、准确加样、温浴的温度与时间、洗涤
对自回归单整移动平均季节模型(SARIMA模型)的原理,以及建模思想进行诠释.指出在经济数据中普通存在的季节性问题,并在ARIMA模型基础上提出SARIMA模型.通过对中国人民银行的
目的:探讨甲下外生性骨疣的临床、组织病理学特点及治疗方法。方法:回顾分析西京医院全军皮肤病研究所2005—2010年间诊断和治疗的9例甲下外生性骨疣患者的临床、组织病理学
现代企业经营环境已发生变化.能否在激烈的竞争中充分调动员工积极性,对企业的可持续发展起着十分重要的作用。从心理学的角度探讨人力资源管理问题是近年来的研究热点,对于企业
综合分析了我国环境规划的发展概况及作用,提出了目前环境规划方面存在的问题,并指出了将来发展的方向。
本文以网络流行语在新闻报道中的应用为研究对象,通过文献研究法、个案研究法以及收集媒体对相关事件的报道,在观察网络流行语演变的基础上,分析其在新闻报道中的表现及泛化
研究了六端口测相位的基本方法,给出了六端口的构成,并把六端口作为直接变频接收机应用在FMCW雷达中,给出了其测速测距的原理。六端口雷达与传统的超外差式雷达相比,结构简单