论文部分内容阅读
PACS系统是应用在医院影像科室的系统,主要任务是把日常产生的各种医学影像以数字化的方式保存起来。近年来,虽然PACS系统已经取得了很大的进步,但仍然没有很好地解决存储方面的统一架构问题。特别是,随着存储的数据量越来越大,仅采用传统的关系型数据库作为存储方案存在着查询检索效率不高、不能在短时间内获得检索结果等问题。针对现有医疗影像文件的存储检索系统在大数据量下的查询与检索的局限性,本文对原有的PACS系统上进行了改进,提出了一种基于分布式文件系统Hadoop以及分布式数据库HBase相互配合的存储与检索方案,旨在提高医疗影像文件的存储与检索效率。为达到上述目的,本文主要做了以下研究:(1)提出了一种优化HDFS存储海量小文件性能的方案。采取将小文件合并成大文件的方式,将同一序列的所有的医疗影像文件合并为一个SequenceFile,再将同一检查号的SequenceFile合并为MapFile。这样合并后的文件一般规模较大,可以满足HDFS对大数据模块的高性能处理。(2)提出了一种DICOM影像文件的存储方案。它通过解析DICOM格式文件的层次信息,将这些信息存储到HBase的其中一个列族中,再用一个列族来存储影像源文件在HDFS上的地址,来对检索提供支持,使用dcm4che3从DICOM格式的影像文件中提取出需要的信息。同时,构建了影像文件的专有格式,并通过Map/Reduce任务流建立了关系型数据库查询到非关系型数据库任务的映射模型,来较好地适配Map/Reduce的作业流。(3)提出了一种基于改进后的布隆过滤器建立HBase多级索引的方法。通过布隆过滤器构建多级索引表的方式,在每个行键上建立布隆过滤器,大大加快了索引的检索效率,有效的实现了Hbase的非主键查询,从而克服了传统的Hbase目前只支持对行键的索引的不足,更好地满足了目前医疗影像文件检索系统需要进行多条件的查询的需求。(4)为验证方案的实际应用效果,本文开展了应用研究。采用Hadoop存储架构与HBase分布式数据库设计的存储与检索方案来对某医院的影像科室产生的影像文件进行存储与检索。经过对实验结果的分析,本方案设计的存储架构相较于传统的MySql,在数据量较小时,性能差距不明显,但是随着数据量的增加,本文的方案有明显的优势,特别是在检索实验中,经过布隆过滤器以及改进后的HBase的二级索引方案对于数据查询时间的提升是有帮助的。