论文部分内容阅读
近年来,由于生物数据爆炸性的增长,生物领域研究突显出计算密集型和数据密集型的特点,过去以个人或小组为主的研究方式逐渐被多人或多个单位共同参与、协同合作的方式所取代。随着eScience、Collaboratory的兴起和流行,科学工作流(Scientific Workflow)已成为生物研究者协同进行大规模科研实验的主要方式。然而,生物领域协作在向着更深层次开展的同时,也面临着新的问题和挑战。首先,伴随着协作规模的扩大,分析流程变得愈加复杂,加大了用户论证数据结果、理解流程执行过程的难度。其次,计算需求增大带来的压力需要通过软件资源的分享来缓解,而现有研究主要集中在分享的方式上,对于分享行为本身的关注较少,影响了协作的开展。此外,软件和数据分享虽然提供了丰富的科研资源,但也带来了选择上的困难,导致用户无法快速定位到高质量的资源。本文针对上述关键问题,在生物工作流数据世系管理、生物科学软件分享和选择、生物数据文件推荐三个方面进行了研究,主要研究内容和贡献如下:1)提出一个面向生物科学工作流的协同数据世系模型。该模型用于记录生物数据分析流程的整个过程,包括工作流执行所涉及的数据、软件、用户、任务等基本对象以及对象间的相互作用关系。在此基础上讨论了数据依赖、运行依赖等隐含关系的定义与求解,并引入了协同关系来描述用户在软件和数据两个不同层面上的协作行为,为结果数据理解、执行过程重现、错误跟踪定位、用户协作分析提供支持。2)提出一个生物科学软件分享模型。本文针对生物科学软件分享活动,通过参与观察和半结构化访谈的方式收集了相关数据,经过归纳演绎分析发现,软件的类型、分享的对象和范围、软件生命周期的不同阶段、软件自身的技术特征都会对生物科学软件的分享产生影响,需要采用相应的分享机制来保证软件分享者和使用者的权益,并设计了基于有限状态自动机的生物科学软件分享模型,模型的状态集合和转移函数综合了上述研究发现,可为生物协作中软件分享使用提供指导。3)提出基于社会属性的生物科学软件选择和组合方法。采用人种志的方法对生物研究人员的软件使用行为分析发现,在生物科学软件使用方面,用户较重视软件的社会属性,进而确定出包括师生指导关系、软件开发者、软件学术水平以及软件声誉在内的四个影响用户选择的关键因素,形成生物科学软件质量模型。并结合协同数据世系,设计选择算法对质量模型进行量化,完成定性分析到定量选择的转换。在此基础上,根据软件协作信息,基于最大化软件组合协作度的思想,设计了软件组合优化算法。实验数据表明,该方法可以有效的提高软件选择组合的效率。4)提出基于用户信任的生物数据文件推荐方法。以序列比对为主要分析手段的生物数据研究依赖于参考数据文件的质量,而生物数据呈指数增长带来的信息过载使得用户难以快速的找到高质量的数据文件。本文根据协同数据世系中数据文件的使用信息,分析用户的使用偏好,定义数据信任关系,然后基于用户行为的相似性计算得到用户间的信任关系,并结合两方面的信息,通过推荐算法预测用户对数据文件的信任程度,过滤出高质量的数据文件向用户推荐。实验结果表明,使用该方法推荐的数据文件作参考,可以有效的提高数据分析的成功率。5)设计并开发了蛋白质数据分析协作平台。该平台集成了上述研究成果,包括协同数据世系管理、生物软件分享机制、基于社会属性特征的生物软件质量模型和组合选择方法、以及高效的数据文件推荐技术,能够在数据分析流程的理解和结果论证、软件的分享、选择和组合、数据文件的推荐等生物领域协作的重要方面给用户提供支持和帮助。