【摘 要】
:
当前生物信息学中对模体的预测普遍使用聚类算法,而当前大多数模体预测工具及算法在预测顺势调控结合位点时具有一定的局限性,他们往往能有较准确的预测那些与背景序列(模体
论文部分内容阅读
当前生物信息学中对模体的预测普遍使用聚类算法,而当前大多数模体预测工具及算法在预测顺势调控结合位点时具有一定的局限性,他们往往能有较准确的预测那些与背景序列(模体所在序列)间具有巨大差异的模体,而事实上,一些结合位点实际上与其背景序列的核苷酸分布十分接近,因此在这种条件下更好的测试各种工具的实际性能就非常有使用价值。本文针对当前比较常用的聚类算法进行了介绍,特别是对基于图论的几种算法进行了比较,采用了人工数据和人工合成数据对它们进行测试,并且针对实际应用中可能存在的问题进行了分析,重点讨论了算法运行的速度和结果的准确性。我在数据的选择上进行了深刻的研究,并在先前测试的基础上进一步对实际的模体,结合位点等问题进行了有针对性的数据筛选和合成工作。由于本文的目的在于更好的对当前的几种工具进行测试研究,所以很多算法都给出了十分详细的介绍,很多实验也都是很有针对性的使用结合位点与其背景序列的核苷酸分布十分接近的数据,这样更接近于真实环境下的应用,更重要的是,在很多模体预测中,这种模体就很难被一些工具侦测到。通过使用真核生物和原核生物的数据,对其模体进行查找,各个算法都有自己各自的优势,CliClustering能够很好地平衡测试结果的敏感性和特异性,特别在背景序列的核苷酸分布与其背景序列相似度较大时,表现十分突出。经过多工具补充测试实验,也证明它能够很好的作为其他工具的补充。
其他文献
乳腺癌是目前世界上发病率和死亡率较高的疾病,严重威胁人类的健康。早期诊断,早期治疗是提高乳腺癌患者生存率的主要手段。目前,乳腺癌诊断的主要方法是通过X光图像、CT、核
随着软件系统应用范围的日趋广泛,我们的日常生活越来越依赖应用软件所提供的服务,目前软件已经应用于航空航天、核电技术、军事、电子机械、金融等许多重要的特殊工程领域,
在信息爆炸的时代,互联网已经成为了信息传播非常重要的载体之一。随着时间的积累,互联网成为了一个庞大而又复杂的信息仓库,简单的浏览、检索已经不能满足人们的需求。人们
随着计算机软硬件水平的不断提高,互联网的迅速普及,多媒体的应用越来越广泛,同时,多媒体音视频的质量也有了大幅度的提高,用户对多媒体处理软件的要求越来越高。本文开发了
随着网络信息量的急剧增长,人们期待通过一种更加简洁的方式获取信息。传统的搜索引擎只能返回一系列的网页,人们期待通过一种更加简洁的方式获取信息,问答系统应运而生。问
随着网络技术和信息技术的不断进步,数据挖掘引起了人们的广泛关注,传统的信息处理技术越来越不能很好地满足实际应用的需要。因此,人们迫切需要具有更高效率和更强能力的信
作为一种重要的分析复杂系统的方法,时间序列预测在诸如:对太阳黑子数、电力需求和商品物价指数CPI的预测等场合都已取得了广泛应用。其面临的问题之一即在对原时间序列进行
随着影视、游戏,动画产业的飞速发展以及虚拟现实技术的广泛应用,真实世界的场景建模与绘制已经成为一个日益上升的需求,特别是室外大尺度场景。传统的正向建模方式,如使用三维建
随着遥感事业的蓬勃发展,卫星遥感图像受到人们越来越多的关注。高光谱图像作为卫星遥感图像的一个重要分支,其本身具有的高维数据蕴含了丰富的信息待我们深入挖掘。高光谱图像分类问题是现阶段遥感图像研究领域的一个热门问题,该问题涉及计算机图像学、数理统计学、矩阵论等多个学科理论。在高光谱图像分类领域,目前较为流行的分类方法是利用基于统计学习的机器学习分类算法(监督学习方法,无监督学习方法),通过建立分类模型