论文部分内容阅读
随着互联网的快速发展,医学数据电子化趋势越来越明显,网络上可用医学数据资源日益增多。但是由于各大医院之间的数据库系统、系统业务逻辑和数据格式的千差万别,产生大量的分布的、异构数据,进而形成许多相互的孤立的“信息孤岛”。而孤立的数据也严重影响了数据的综合分析。因此医院之间迫切需要对异构数据进行共享集成。医学数据经过分析可为医生对患者的诊断提供数据支持,使得诊断更加高效和准确,然而由于数据异构性,导致数据无法被用来进行综合分析,无法充分利用已有数据的价值。针对该问题,本文在研究了异构数据集成的相关技术和理论的基础上,对现有的数据集成方法进行分析后,采用数据仓库方式和Mediator/Wrapper方式相结合的集成方式,提出了基于数据仓库方式和Mediator/Wrapper方式相结合的IHDS体系结构。并从IHDS体系结构的设计目标、分层结构模型、交互结构模型和主要模块分析方面详细介绍了IHDS体系结构。最后从多个方面分析了IHDS体系结构的特点和优势。针对数据源异构问题,以往的方法通常需要根据不同数据源设置不同的处理模块,降低了系统可维护性和可扩展性。本文提出了基于存储方式转换的异构数据处理方法,将数据转换为标准的中间数据模式后再发送到目标数据源端,以此避免大量设置不同数据源处理模块,提高可扩展性和可维护性,并采用XML作为中间数据表示方式,将中间数据抽取为标准XML数据发送给目标数据源,以此解决异构问题。在对分布、异构数据集成研究的基础上,本文实现了一个针对医学数据的分布数据共享集成系统原型,并对集成系统的主要模块的实现做了详细的说明。本文在医学分布数据集成系统的基础上,针对其中的ETL数据处理部分进行了优化。原有的基于数据分片的ETL算法由于各段划分不等,使得瓶颈段之外的其他段长期处于空闵状态,这在一定程度上造成了资源浪费。然后基于该算法的不足,本文提出了基于重复设置瓶颈的ETL优化方法。最后进行实验,验证了基于重复设置瓶颈的ETL优化方法的可行性。