聚类方法在生物数据中的研究与应用-基因表达数据聚类方法研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:galatea
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因芯片技术的迅速发展产生了海量的基因表达数据。如何分析和处理这些数据,从中提取出有意义的生物学信息,已经成为后基因组时代的研究热点。聚类方法是目前基因表达分析研究的主要计算技术之一,能将功能相关的基因按表达谱的相似程度归纳成共同表达的类别,有助于对基因功能、基因调控、细胞过程以及细胞亚型等进行综合的研究。目前,已有多种聚类方法被应用到基因表达数据分析之中,在取得了大量成果的同时也出现了一些问题。本文即围绕聚类方法在基因表达数据中的研究与应用开展各项研究工作。 本文首先依次介绍了生物信息学和基因芯片技术,从而引出基因表达数据,然后介绍了基因表达数据分析的基本内容和几种常用的聚类算法,包括四种层次聚类算法,K-均值聚类算法以及SOMs聚类算法,并在章节的末尾给出了四个具有外部标准的基因表达数据集。接着本文对基于群智能的基因表达数据聚类算法进行了深入的研究,先阐述了近几年来聚类算法在基因表达数据上的研究进展,接着介绍了遗传K-均值聚类算法,最后重点提出了一种新的基因表达数据聚类算法--基于QPSO的基因表达数据聚类算法,然后使用前文提到的数据集进行了大量实验。实验结果表明,基于QPSO的基因聚类算法具有良好的性能。然后在后续的章节中研究了基因表达数据聚类算法的外部评价和参数选择,介绍了rand指数并对前面提到的几种聚类算法关于相似度和数据转换方式的选择进行了探讨。最后介绍了聚类算法结果的内部确认技术并运用FOM方法对前文提及的相关基因表达数据聚类算法进行了验证。
其他文献
T-S模糊系统具有线性规则后件的特点,被广泛应用于基于数据建模的应用中。模糊系统辨识是模糊系统建模的主要手段,优化模糊系统结构是模糊系统辨识的关键。在模糊系统辨识的
图像分割是模式识别和图像处理的重要组成部分,针对具体的图像有不同的分割方法,其中基于图论的图像谱方法分割是近年来国际上图像分割领域的一个新的研究热点。尽管谱聚类算法
程序设计语言考试中的自动化试卷评分技术因其涉及多方面的理论知识已经成为一项非常有意义的研究课题,但目前该领域,实用性好而且功能健全的系统很少。在基于程序理解和语义
当前关联规则挖掘存在两个问题,第一是挖掘频繁项集效率低,第二是生成规则的数量和质量问题。针对这些问题,对基于FP-tree最小无冗余关联规则挖掘方法进行了研究,主要研究工
软件复用是近年来国内外软件界研究的热点之一,它能大幅度提高软件质量和生产率,降低软件丌发和维护的成本。基于构件的软件开发(CBSD)是软件复用的一种有效形式。而有效的构
本文的主要目的是系统详尽的分析和研究WTLS协议的安全机制,通过深入分析WTLS协议的流程,进而发现其中存在的缺陷,提出相应的改进意见,以期不断的完善WTLS的安全保证,满足当
近年来,随着网络技术的发展,安全问题越来越引起人们的关注。根据各种安全技术和应用的需求,人们提出了许多加密算法。其中RSA体制被认为是公钥密码体制研究的一个标准模板。
面对激烈的市场竞争,钢铁企业需要加强自身的建设,从产品、工艺、生产设备以及生产管理方面来提高企业自身的竞争力。为解决缺乏有效的生产管理和生产调度所引起的管理失控、
移动代理技术是一种新型的智能分布式技术,其自主性、移动性和智能性的特点正好满足网络管理的要求,因此将移动代理应用到网络管理系统具有很好的研究意义。本文分析了国内外
随着卫星通信与遥感技术的飞速发展,人们获取的空间数据量日益增多。如何高效地从大量的空间数据中提取出有用的信息,对空间数据挖掘技术提出了挑战。空间聚类作为是空间数据