论文部分内容阅读
体细胞发生基因突变诱发癌症,肿瘤细胞中的基因突变包含两种:驱动突变和乘客突变,而癌症驱动基因发生突变是癌症产生的最主要原因。因此,癌症驱动基因的筛选对癌症病理研究、癌症临床治疗和新型抗癌药物开发都具有十分重要的意义。本文依托高通量测序技术得到基因突变数据,基于基因突变频率筛选癌症驱动基因。 本研究首先采用基于基因突变频率通过使用基因协变量数据克服基因突变异质性问题的MutSigCV算法作为驱动基因基础筛选方法。为解决原算法平台Matlab在算法运行中数据读取速度慢及与其他数据处理流程相结合不流畅等问题,本文使用R语言完成了对MutSigCV算法的实现。同时,很好的完成了算法与R中其他生物信息包的兼容。其次,对MutSigCV算法在筛选邻近基因时阈值需人为凭经验选取等缺点,采用Ward聚类法和轮廓系数法相结合的方法利用基因协变量数据实现基因的聚类,进而对每个基因筛选邻近基因。最后使用二维投影赋值技术参考突变类型及突变影响对每种突变赋值,使用假设检验完成癌症驱动基因筛选。对本方法与原MutSigCV算法在肺癌基因突变数据上进行验证实验,实验结果表明本方法具有更好的筛选效果。最后将改进MutSigCV算法应用于某癌症驱动基因筛选,实验结果表明本算法能有效地对癌症驱动基因进行筛选。