基于PCF的拷贝数预处理系统的设计与实现

来源 :武汉理工大学 | 被引量 : 1次 | 上传用户:adfazzzzzzzzzzzzz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因组拷贝数变异(CNV)是指在人类和其他哺乳动物中发生的基因组结构变异,是导致某些疾病发生的主要原因。为了探索拷贝数变异的致病机制,通常使用基因芯片测得癌症细胞样本的全基因组拷贝数。然而由于癌症样本中,不可避免地含有一些癌细胞以外的正常细胞,导致芯片测出的癌细胞样本的拷贝数混入了正常细胞,从而偏离其真实值。本文的研究目标就是针对SNP芯片检测的癌细胞样本拷贝数,研究并实现了一个拷贝数预处理系统,计算出癌细胞样本中的正常细胞分数,还原癌细胞的真实拷贝数。由此本文的主要研究工作如下:(1)在BACOM算法的基础上,本文提出了一套拷贝数预处理方法。以原始癌症细胞正常细胞样本对为数据源,通过重新设计的数据处理流水线,得到校正的去除正常细胞污染的癌症细胞真实拷贝数,为后续检测CNV区域提供了一个绝对归一化标准。通过将本系统分别与BACOM方法和ABSOLUTE方法进行对比,验证了系统的可行性与有效性。(2)在等位基因平衡位点提取部分,首先通过K-Means初步确定AB型基因位点,在段内对基因型为AB的位点通过滑动窗口求皮尔逊相关系数,确定基线范围,然后通过区间匹配方法寻找拷贝数观测量所对应的真实整数值,对全基因组拷贝数进行归一化校正。通过对比BACOM中的仅进行缺失类型判断的算法,验证了区间匹配法在判断拷贝数类型上的优势。(3)在拷贝数分段阶段,实现和对比了多种分段算法。首先,本文实现了目前比较主流的分段算法,包括基于HMM的分段算法,基于递归思想的分段算法,基于Lasso的分段算法,和PCF分段算法。其次,本文设计了一套基于随机数发生器、多模板的仿真数据生成模型,并运用此模型生成一组仿真测试数据集,对上述分段算法进行对比分析。最后,以分段算法的准确率和分段效率作为衡量标准,选择两者均表现良好的PCF算法。(4)在上述理论研究和预处理系统实现的基础上,本文引入分布式计算框架Apache Spark,将K-Means聚类基因分型和平衡位点相关系数计算移植到Spark平台实现,验证了单核算法向基于Spark平台的分布式算法移植的可行性。
其他文献
电磁抹拭技术作为新兴的热镀锌抹拭技术,能够在非接触的抹拭过程中提高工件的表面质量,控制上锌量,减少对环境的污染,对促进该行业节能、降耗具有重大的社会意义。本文研究了
准噶尔盆地是我国大型含油气盆地之一,据全国第三次油气评价结果,准噶尔盆地的油气资源量为106.8亿吨,目前累计探明石油地质储量为20.9亿吨。而准噶尔盆地南缘为天山山前构造
随着国家“网络强国”战略逐步实施,电力行业的网络安全建设得到了越来越多的关注,建设符合电力行业特点的网络安全防护体系迫在眉睫。电网调度自动化系统承担着实时、非实时控制和管理电网的任务,调度自动化系统一旦成为病毒或网络黑客的目标,就会导致一次系统的波动和停电,造成了巨大的经济损失,严重损害社会福利。风电场作为新能源发电企业,承担着为国家、社会提供清洁能源保障的重要任务。风电场作为电力系统的终端节点,
高新技术企业是以技术研发为核心、科学技术为主要产品的企业,是我国科技创新最活跃的群体,也是我国技术创新的领头羊和重要源泉。相比于传统行业,这些企业有着更强的创新能力和新技术研发需求,对我国科技进步的提升有着更强劲的推动力。目前,我国高新技术企业融资难、融资贵的问题普遍存在,限制了发展速度。特别是那些中小高新技术企业,更是举步维艰。因此,破解高新技术企业融资困境,缓解这类型企业的资金紧张程度,对高新
渤南油田主要由受构造控制的断块-岩性油藏组成,可以划分为11个区,而论文的主要研究对象是北部的义123区块沙三段中部的九砂层组和义944井区四砂层组。9砂组是深水湖泊条件下
致病菌一直严重威胁着人类的健康安全,在数十年预防与治疗细菌感染的过程中,滥用抗生素导致病原菌的耐药性普遍增强,增加了治愈难度,提高了治疗成本,加重了社会负担。然而,临床上传统的口服或静脉注射抗生素等预防与治疗手段,在使用植入物的骨科等外科手术的治疗过程中,很难清除附着并定植在植入物表面的细菌生物膜。为了控制种植体相关感染,通常需要增加抗生素的治疗时间和使用剂量,这就引起另一个世界性医疗难题——细菌
制造协作网(Collaborative Manufacturing Network,简称为CMN)为企业提供了资源共享的平台,制造企业面对众多供应商和资源,迷失于信息的海洋中,无法快速判断出最合适的合作伙
近年来,我国经济正在由快速发展阶段转向高质量发展阶段。在这一经济转型升级的关键时期,我国资本市场日趋活跃,越来越多的企业通过兼并重组期望实现快速发展,在这期间商誉也越来越多的出现在企业的财务报表中。自2013年以来,我国企业并购交易呈现爆发式的增长,商誉在企业净资产中的比重也越来越大。随着时间推移,三到五年的业绩承诺期满后,2018年商誉减值数额空前巨大,商誉问题再一次成为了学术界关注的焦点。本文
目的:为了探讨东亚钳蝎提取物的镇痛活性,确定其发挥镇痛作用的关键活性部位,分离鉴定新型东亚钳蝎毒素并探究其镇痛作用,为开发新型镇痛药物奠定理论基础。方法:本研究通过小鼠疼痛模型、大肠杆菌重组表达、蛋白质分离纯化联合电生理技术、氨基酸测序和结构鉴定,对东亚钳蝎镇痛毒素多肽进行分析研究。结果:本研究首先通过电生理证明了低温冻杀的东亚钳蝎水提物具有Nav1.7通道的激活活性,并动物行为学实验证明了低温冻
随着经济的迅速发展和科技水平的显著提高,新的挑战在自动控制领域出现,比如在化学工程,工业制造等领域,多变的工艺过程,这对系统的建模构成了巨大挑战。因此,人们对混杂系统进行了广泛的研究,其中混杂系统可以通过将简单类的不同模型连接起来,来近似一种本身表现出不连续行为的现象。线性切换系统是混杂系统中比较特别的一类,它由若干个线性子系统和激活其中一个线性子系统的切换规则构成。研究线性切换系统的辨识为混杂系