论文部分内容阅读
随着基因组学的不断发展,DNA微阵列技术为生命科学提供新的解决问题的思路与方法。基因表达数据是一般为矩阵形式,分析的是基因发生的改变,基因间的互相关系以及基因活动产生的影响等,具有维数高、样本少、分布不平衡等特点。基因表达数据可以为疾病的诊断和治疗提供可靠的分类结果。分析基因表达数据时,需要对其进行特征选择,从而降低数据的维数,降低后期的生物学分析成本。选择出对分类起重要作用的那部分基因可以为疾病的预防与诊断等提供更准确的依据。本文将针对基因表达数据的特征选择和分类算法进行研究,主要内容包括:(1)提出基于互信息最大化的模型无关的特征选择方法。利用互信息最大化方法对基因进行初步筛选,能去除大量噪声,有效减少冗余基因,为遗传算法提供比较理想的种群初始化环境,特征选择转变为全局优化问题。选择得出的特征子集可直接用于其他类型的分类器,分类精度较高。(2)提出基于云平台的特征选择方法。结合了云计算与特征选择方法的特点,利用5台PC模拟搭建Hadoop云计算平台,用Map任务计算各自特征集的信息熵,在Reduce步骤中,对上一步得到的互信息进行排序,筛选特征,汇总后运送到客户机,在客户机端用ELM对获得的基因特征进行训练和测试,算法能够在保证一定分类精度的情况下快速进行特征选择,降低了时间复杂度。(3)提出基于鱼群优化算法的改进RELM基因表达数据分类方法。用鱼群优化算法优化RELM的输入层权值,对输出权值矩阵采用Cholesky分解,改进后的基因表达数据分类算法泛化性能好,分类精度较高。(4)改进了正则极限学习机的隐层偏置,提高了基因表达数据的分类精度。RELM的隐层偏置用Fibonacci方法优化,改进后的算法应用到肿瘤数据集中,分类精度较高。本文主要针对特征选择和分类问题开展研究,并将研究成果应用在Breast、Colon、Leukemia、SRBCT等基因表达数据集上,丰富了特征选择的方法,基因表达数据分类的准确率得到提升,为生物学以及生命科学领域的基因表达数据研究提供了有价值的分析工具。