单体分型和单体型频率估计

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:cchongzi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机和网络技术的飞速发展,为分子生物学研究提供了新的强大手段。单体型信息因其在医学特别是遗传疾病研究方面具有重要意义,引起生物与医学工作者的极大关注。但绝大多数所研究的生物个体,包括人类自身,都是双倍体结构;目前由于时间和经济成本上的约束,在实验室里只能得到双倍体结构的复合基因型序列。因此,当需要知道物种或者组织的单体型序列信息时,我们必须借助于计算手段,将每一条基因型序列分解为两条单体型序列,这就是单体分型问题。本文研究了不同数据集及不同模型上单体分型问题的计算复杂性,设计和实现了一系列高效的单体分型和单体型频率估计算法。其主要内容和贡献包括: (1) 群体数据集单体分型 群体数据集不包含任何家系信息,是最常见的一种基因型数据集。关于群体数据集单体分型问题,目前常见的计算手段有Clark算法、PPH算法以及EM和GS等概率统计算法。本文对一种新近提出的基于最大节约原则的单体分型(HMP)模型进行了研究,证明其是NP-hard的和APX-hard的(即,除非NP=P,否则存在一个常数e>0,该问题没有比1+e好的多项式时间逼近算法)。因此,我们为其设计了一个多项式时间的贪心算法以及一个将贪心策略和分支限界策略集合在统一框架下的复合算法。实验结果表明:贪心算法在保持了较准确分型结果的基础上、运行速度相当快;而复合算法虽是完全算法,但其运行效率和实例规模比原有的分枝限界算法都得到了极大提高。 群体数据集中特定基因型序列分型(SGH)判定问题与上述Clark算法相关、它可以帮助我们更好理解单体分型问题。本文证明了SGH问题为NP-complete的。 (2) 家系数据集单体分型 由于家系信息的对单体构型的限制,基于家系数据集进行的单体分型和单体型频率估计的结果会更加可靠。目前对其研究集中于寻找使得家系中发生最少重组事件的单体构型。本文提出了一个k-最少重组单体分型(k-MRH)模型,它在现有的最少重组单体分型(MRH)模型中引入额外限制,使得重组事件在家系中更加合理地平衡分布。同时设计了k-MRH模型的一个综合了寻根策略的优化动态规划算法,尽管该模型也是NP-hard的,但我们的限制条件使其解空间大大缩小,从而大大提高了算法的搜索效率,这在模拟和实际数据的实验中都得到了验证。
其他文献
目前,包括中国在内的许多国家将软件业作为国民经济的支柱产业,由此软件的生产方式开始向全球化、规模化、工业化转变,软件生产开始进入以改善软件过程为中心的软件工程时代,因此
<正>面对小微企业在社会责任中仍存在参差不齐的发展现状,企业应考虑自身人力资源管理与社会责任发展中的密切联系,不能将人力资源管理简单的停留在人事管理之上,克服管理中
在线手写签名认证是人的生物特征中公认的最容易被大众接受的一种身份认证方式,是当前模式识别领域中的研究热点之一。通过计算机实时对比待测签名和真实签名的图像、笔顺、
本文通过植物品种权人收益与植物品种保护水平关系的模型,分析了品种权人新品种价格、品种权人成本及收益与保护水平之间的关系,得出:新品种需求弹性和品种权人品种供给所占
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
“缅怀革命先辈,最好的做法就是继承他们的革命精神并将之发扬光大。”12月4日,在纪念中央红军长征翻越老山界80周年之际,当代广西杂志社一行4人和资源县有关领导及工作人员
企业为了顺应市场经济竞争需求,亟待破解企业传统内部控制困境,结合企业内部控制实务,结合COSO理论和企业内部控制的业务流程,构建企业在业务流程下财务内部控制体系,收获企