论文部分内容阅读
随着人类基因组计划对人类全基因组测序的完成,人类对生命的解释已经进入了功能基因时代.基因芯片技术已经较为完善并趋于成熟,已可以同时针对大量基因进行检测.如何从基因芯片技术产生的海量数据中提取有效信息,挖掘隐藏在基因表达数据下的生物学信息,进而了解生命生长过程及人类疾病的发病机理,就成为生物信息学中面临的重大挑战之一.但由于基因芯片在制备过程中,制备方法与实验因素的影响,现存的公共基因表达数据库中的基因表达数据集均存在不同程度的缺失,由于在基因表达数据的后续分析中,多数的分析方法都建立在完整数据集的基础之上,而缺失数据势必会影响后续分析结果,所以要对数据集中的缺失数据进行填补. 本文中对较为经典的缺失值填补算法进行分析与研究,将K-均值聚类算法与奇异值分解算法相结合,利用逐步逼近的思想提出一种改进算法(Adjusted SingularValue Decomposition,ASVD).利用本文中所研究的缺失值填补算法估计不同缺失机制下的缺失数据,通过均方根误差及其变型以及差异基因保持度来评价其性能及适用性.最后使用Spearman秩相关系数来检验任意两评价标准的一致性.