基于Hadoop的医疗影像文件的存储与检索

来源 :北京工业大学 | 被引量 : 3次 | 上传用户:WANGYUEWANG
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
PACS系统是应用在医院影像科室的系统,主要任务是把日常产生的各种医学影像以数字化的方式保存起来。近年来,虽然PACS系统已经取得了很大的进步,但仍然没有很好地解决存储方面的统一架构问题。特别是,随着存储的数据量越来越大,仅采用传统的关系型数据库作为存储方案存在着查询检索效率不高、不能在短时间内获得检索结果等问题。针对现有医疗影像文件的存储检索系统在大数据量下的查询与检索的局限性,本文对原有的PACS系统上进行了改进,提出了一种基于分布式文件系统Hadoop以及分布式数据库HBase相互配合的存储与检索方案,旨在提高医疗影像文件的存储与检索效率。为达到上述目的,本文主要做了以下研究:(1)提出了一种优化HDFS存储海量小文件性能的方案。采取将小文件合并成大文件的方式,将同一序列的所有的医疗影像文件合并为一个SequenceFile,再将同一检查号的SequenceFile合并为MapFile。这样合并后的文件一般规模较大,可以满足HDFS对大数据模块的高性能处理。(2)提出了一种DICOM影像文件的存储方案。它通过解析DICOM格式文件的层次信息,将这些信息存储到HBase的其中一个列族中,再用一个列族来存储影像源文件在HDFS上的地址,来对检索提供支持,使用dcm4che3从DICOM格式的影像文件中提取出需要的信息。同时,构建了影像文件的专有格式,并通过Map/Reduce任务流建立了关系型数据库查询到非关系型数据库任务的映射模型,来较好地适配Map/Reduce的作业流。(3)提出了一种基于改进后的布隆过滤器建立HBase多级索引的方法。通过布隆过滤器构建多级索引表的方式,在每个行键上建立布隆过滤器,大大加快了索引的检索效率,有效的实现了Hbase的非主键查询,从而克服了传统的Hbase目前只支持对行键的索引的不足,更好地满足了目前医疗影像文件检索系统需要进行多条件的查询的需求。(4)为验证方案的实际应用效果,本文开展了应用研究。采用Hadoop存储架构与HBase分布式数据库设计的存储与检索方案来对某医院的影像科室产生的影像文件进行存储与检索。经过对实验结果的分析,本方案设计的存储架构相较于传统的MySql,在数据量较小时,性能差距不明显,但是随着数据量的增加,本文的方案有明显的优势,特别是在检索实验中,经过布隆过滤器以及改进后的HBase的二级索引方案对于数据查询时间的提升是有帮助的。
其他文献
美国次贷危机引发的金融海啸是金融危机、产业危机、信心危机等多种危机的总爆发。这是自1929年大萧条以来美国最严重的经济衰退,也是2001年“9·11”以来西方发达国家遭
<正>2010年9月28日,历经几个月的国美电器控制权之争暂时落下帷幕。在一场由创始人、职业经理人、战略投资者三方引发的利益博弈中,黄光裕作为创始大股东在持有32.47%股份的
会议
讨论了基于浏览器/服务器(B/S)模式构建多层综合分析机制对电厂监测数据进行分析的数学原理和实现方案,根据分析结果可以提前发现发电机组或其他电力设备的异常状况,从而在很大
介绍在福建灌洋水电站综合自动化系统改造中,针对其模拟式励磁装置的检测放大、电压整定及调差单元进行可编程逻辑控制器(PLC)控制的方案设计与实现。采用MB40智能PLC(iPLC)实现数
<正>两亲性的表面活性剂分子具有在界面上吸附、显著改变界面性质的特性。吸附的趋势与吸附层结构不仅与表面活性剂分子结构有关,还与温度、盐度等环境因素有关,吸附机制的明
会议
中国发展道路,就是中国特色社会主义道路。中国特色社会主义道路在社会主义革命、建设、改革发展实践中走出来,并获得了成功、创造了奇迹。学习贯彻党的十九届五中全会精神,
电机的噪声和振动不仅不利于环保,而且会影响电机的可靠性和安全性。从电机的设计和工艺两方面阐述了如何有效降低电机的噪声和振动,并列举了电机生产过程中部分可能遇到的影响