医学分布数据共享集成方法的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:surtacohen1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,医学数据电子化趋势越来越明显,网络上可用医学数据资源日益增多。但是由于各大医院之间的数据库系统、系统业务逻辑和数据格式的千差万别,产生大量的分布的、异构数据,进而形成许多相互的孤立的“信息孤岛”。而孤立的数据也严重影响了数据的综合分析。因此医院之间迫切需要对异构数据进行共享集成。医学数据经过分析可为医生对患者的诊断提供数据支持,使得诊断更加高效和准确,然而由于数据异构性,导致数据无法被用来进行综合分析,无法充分利用已有数据的价值。针对该问题,本文在研究了异构数据集成的相关技术和理论的基础上,对现有的数据集成方法进行分析后,采用数据仓库方式和Mediator/Wrapper方式相结合的集成方式,提出了基于数据仓库方式和Mediator/Wrapper方式相结合的IHDS体系结构。并从IHDS体系结构的设计目标、分层结构模型、交互结构模型和主要模块分析方面详细介绍了IHDS体系结构。最后从多个方面分析了IHDS体系结构的特点和优势。针对数据源异构问题,以往的方法通常需要根据不同数据源设置不同的处理模块,降低了系统可维护性和可扩展性。本文提出了基于存储方式转换的异构数据处理方法,将数据转换为标准的中间数据模式后再发送到目标数据源端,以此避免大量设置不同数据源处理模块,提高可扩展性和可维护性,并采用XML作为中间数据表示方式,将中间数据抽取为标准XML数据发送给目标数据源,以此解决异构问题。在对分布、异构数据集成研究的基础上,本文实现了一个针对医学数据的分布数据共享集成系统原型,并对集成系统的主要模块的实现做了详细的说明。本文在医学分布数据集成系统的基础上,针对其中的ETL数据处理部分进行了优化。原有的基于数据分片的ETL算法由于各段划分不等,使得瓶颈段之外的其他段长期处于空闵状态,这在一定程度上造成了资源浪费。然后基于该算法的不足,本文提出了基于重复设置瓶颈的ETL优化方法。最后进行实验,验证了基于重复设置瓶颈的ETL优化方法的可行性。
其他文献
视听资料是电子科学技术和刑事诉讼相结合的产物,它能够很直观和形象的反映案件当时的事实,具有其他证据无法比拟的优越性。我国立法开始涉及视听资料,但并未对视听资料的收
采用4×5不完全双列杂交设计,研究西南山区5个地方资源自交系和4个4大类群的代表自交系的一般配合力和特殊配合力。结果表明,除了母本组亲蕾的秃尖长、百粒重的GCA,宅尖长、
文章从加强与完善计量检测体系,进一步做好测量控制工作的角度出发,就实施测量设备修理后再次校准的必要性阐述了作者的观点,同时针对如何落实修后校准工作提出了一些具体措施和
为检查纺织品服装生产和销售企业执行国家强制性标准GB18401-2003《国家纺织产品基本安全技术规范》、GB5296.4-1998《消费品使用说明纺织品和服装使用说明》的情况,湖北省纤
缫丝是南充的资源优势产业,生丝是南充传统出口创汇产品,但是也应看到.目前南充缫丝行业的发展机遇与挑战并存。要打造品牌生丝,仅靠缫丝企业自身的力量是单薄的,要依靠从政府到企
按照国家质量监督检验检疫总局和中国纤维检验局关于<进一步加强对絮棉制品的质量监督工作,严厉打击"黑心棉"、"垃圾棉"等掺杂使假的质量违法行为>的要求,我所加强了对絮棉制
<正>一、引言仕女画一般专指描绘封建社会贵族妇女和宫妃生活情趣的绘画,是人物画的一个分目。这类题材汉代已有,仕女画至唐尤甚~1。据《历代名画记》载:汉元帝时的宫女都曾
在Matlab7.0环境下,根据人工神经网络的理论和方法,以重庆市彭水县植烟土地的实测数据及评价标准构建径向基函数神经网络模型,并进行模型训练及样本评价;在ArcGIS技术支持下,进行不同尺度土地适宜性评价及精度检验.结果表明:采用最近邻聚类学习算法选取聚类中心,模型具有较强非线性处理能力和逼近能力,并具有学习时间短,网络运算速度快,性能稳定等优点;通过模型评价结果和检验值的验证,发现用径向基函数