论文部分内容阅读
随着实验技术和信息技术的发展,产生了海量的人体生理功能实验数据。在积累生物数据的同时,也累积了大量的非结构化的生物医学文献数据,而且这些非结构化的文本数据正呈指数形式快速增长。基于高分辨数字人体结构数据集的人体生理组学平台是在人体结构和生理功能数据库的基础上,采用多层次体系构建,致力于建立一组应用于生理学及临床医学的仿真与模拟的完善的人体生理模型系统。生理组学文献挖掘系统的实现,可用于挖掘与生理组学有关的实验数据,组建某一特定研究领域的二级文献库,以辅助人体生理模型的构建。本课题作为基于高分辨人体结构数据集的人体生理组学课题的研究内容之一,通过调研国内外做数据挖掘和生物信息文献挖掘的大量论文,着眼于从海量信息中提取、整合所需的生理功能数据或信息,以生理组学为研究对象,结合生理组学特殊的研究领域和跨层次结构特点,有针对性地提出利用数据挖掘和文本挖掘的技术,构建二级文献库的思路。通过比较数据挖掘和文献挖掘的算法和工具,归纳设计出一套适合于生理组学研究的方法和工具。具体方案是,通过从PubMed上下载文献,经过文本校验,数据预处理,分词、词性标注和实体挖掘,以MeSH为词典构建出所需的二级文献库。本文以生理组学中家族性心肌肥厚病作为案例,通过上述方法和工具对其进行文献挖掘,构建家族性心肌肥厚病二级文献库,并通过分析相关实体和文献关联给相关研究人员提供研究意见和建议。由家族性心肌肥厚病二级文献库的建立及相关实体和文献关联结果的分析可以看出,本系统可以辅助生理组学研究工作有针对性的查找文献,用于生理组学其它模型构建时的前期工作,并可有效协助生理组学本体的构建工作。