面向生物领域协作的科学软件分享、选择与推荐研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:dajianshi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,由于生物数据爆炸性的增长,生物领域研究突显出计算密集型和数据密集型的特点,过去以个人或小组为主的研究方式逐渐被多人或多个单位共同参与、协同合作的方式所取代。随着eScience、Collaboratory的兴起和流行,科学工作流(Scientific Workflow)已成为生物研究者协同进行大规模科研实验的主要方式。然而,生物领域协作在向着更深层次开展的同时,也面临着新的问题和挑战。首先,伴随着协作规模的扩大,分析流程变得愈加复杂,加大了用户论证数据结果、理解流程执行过程的难度。其次,计算需求增大带来的压力需要通过软件资源的分享来缓解,而现有研究主要集中在分享的方式上,对于分享行为本身的关注较少,影响了协作的开展。此外,软件和数据分享虽然提供了丰富的科研资源,但也带来了选择上的困难,导致用户无法快速定位到高质量的资源。本文针对上述关键问题,在生物工作流数据世系管理、生物科学软件分享和选择、生物数据文件推荐三个方面进行了研究,主要研究内容和贡献如下:1)提出一个面向生物科学工作流的协同数据世系模型。该模型用于记录生物数据分析流程的整个过程,包括工作流执行所涉及的数据、软件、用户、任务等基本对象以及对象间的相互作用关系。在此基础上讨论了数据依赖、运行依赖等隐含关系的定义与求解,并引入了协同关系来描述用户在软件和数据两个不同层面上的协作行为,为结果数据理解、执行过程重现、错误跟踪定位、用户协作分析提供支持。2)提出一个生物科学软件分享模型。本文针对生物科学软件分享活动,通过参与观察和半结构化访谈的方式收集了相关数据,经过归纳演绎分析发现,软件的类型、分享的对象和范围、软件生命周期的不同阶段、软件自身的技术特征都会对生物科学软件的分享产生影响,需要采用相应的分享机制来保证软件分享者和使用者的权益,并设计了基于有限状态自动机的生物科学软件分享模型,模型的状态集合和转移函数综合了上述研究发现,可为生物协作中软件分享使用提供指导。3)提出基于社会属性的生物科学软件选择和组合方法。采用人种志的方法对生物研究人员的软件使用行为分析发现,在生物科学软件使用方面,用户较重视软件的社会属性,进而确定出包括师生指导关系、软件开发者、软件学术水平以及软件声誉在内的四个影响用户选择的关键因素,形成生物科学软件质量模型。并结合协同数据世系,设计选择算法对质量模型进行量化,完成定性分析到定量选择的转换。在此基础上,根据软件协作信息,基于最大化软件组合协作度的思想,设计了软件组合优化算法。实验数据表明,该方法可以有效的提高软件选择组合的效率。4)提出基于用户信任的生物数据文件推荐方法。以序列比对为主要分析手段的生物数据研究依赖于参考数据文件的质量,而生物数据呈指数增长带来的信息过载使得用户难以快速的找到高质量的数据文件。本文根据协同数据世系中数据文件的使用信息,分析用户的使用偏好,定义数据信任关系,然后基于用户行为的相似性计算得到用户间的信任关系,并结合两方面的信息,通过推荐算法预测用户对数据文件的信任程度,过滤出高质量的数据文件向用户推荐。实验结果表明,使用该方法推荐的数据文件作参考,可以有效的提高数据分析的成功率。5)设计并开发了蛋白质数据分析协作平台。该平台集成了上述研究成果,包括协同数据世系管理、生物软件分享机制、基于社会属性特征的生物软件质量模型和组合选择方法、以及高效的数据文件推荐技术,能够在数据分析流程的理解和结果论证、软件的分享、选择和组合、数据文件的推荐等生物领域协作的重要方面给用户提供支持和帮助。
其他文献
目的探讨定位直肠癌前哨淋巴结(SLN)方法以及临床应用价值。方法运用体内或体外注射亚甲蓝定位47例SLN,采用术中冰冻切片检查、HE染色病理检查、CK-20免疫组化染色(S—P法)检查检
目的探讨胰十二指肠切除术后胰瘘发生的原因及其防治方法。方法回顾性分析2008年1月至2010年11月收治的76例胰十二指肠切除术患者的临床资料,对其术后发生胰瘘的14例患者进行
目的探讨急性心肌梗死患者行急诊冠状动脉介入治疗后再灌注心律失常的发生特点,以便减少严重心律失常的发生率,改善患者预后及生活质量。方法对该院2009年1月至2012年5月收治的
阑尾炎是外科急症中的常见病、多发病,本研究选择自2011年8月至2013年9月作者于湖北省人民医院普外科进修时收治的急、慢性阑尾炎患者各40例,比较其手术时间、术中出血及术后腹
目的:研究T细胞免疫球蛋白及黏蛋白结构域分子-3(Tim-3)在人肝癌细胞系中的表达及其对肝癌细胞肿瘤生物学行为的影响。方法采用荧光实时定量PCR(FQ-PCR)和蛋白免疫印迹方法检测人
信息负表示是一种新型的信息表示方法,其以数据的补集中的信息代替原始数据进行存储,实现保护数据安全和隐私等目的。负数据库是信息负表示的一种存储形式,其是一种新型的隐
'钱锺书和杨绛怎么教育钱瑗?''不用管,不用管',钱静汝连连摆摆手,'钱瑗真的乖,大家都喜欢她。'钱静汝是钱锺书的堂侄女,钱瑗比钱静汝大两岁,两人在