论文部分内容阅读
当前医疗体系中信息系统种类繁多,同一个城市各个医院间、各地市医院,甚至上下级医院中所用的信息系统都互相无法通信;病人在全国各地求医过程中会产生大量医疗单据,这些数据很难管理和保存,也就无法为新的医生提供参考。将纸质的化验单上的医疗健康指标数据识别为文字并转化为医疗电子档案进行存储,在进行保险理赔、转院、远程会诊、建立个人健康档案时都具有重要作用。用户拍照得到的化验单照片,由于手持手机抖动、拍摄角度不正、光照不均匀等原因,经常会出现透视上的扭曲或倾斜。本文提出了一种基于图像处理的化验单识别新算法,可以有效地对发生透视畸变与倾斜的扭曲图片实现矫正,并在图片中将每个字符准确框选,提取出文本区域,并准确地识别化验单的文字内容。本研究以MATLAB为工具,采用边缘检测、霍夫直线检测、中心投影变换等算法对化验单图片进行透视畸变矫正与倾斜矫正,采用MSER最大极值稳定区域算法检测文字的位置并切割,采用开源的Tesseract-ocr引擎进行文字识别,使用jTessBoxEditorFX校正识别结果并对文字图像数据进行重新训练。最后对切割与识别结果进行统计,得出算法的漏检率仅为0.6%,中文识别的正确率达到了 90%以上,对于英文与数字识别的正确率达到96%以上。