基于深度学习的文档褶皱矫正研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:zjr_1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文档的数字化是保存现有打印文档的一种重要方式,可以方便人们随时随地进行访问。随着移动摄像头的日益增多,拍摄纸质文档成为了一种最便捷的文档扫描方式。拍摄后,图像可以由文本检测和识别技术进行进一步的处理,实现内容的分析和信息的提取。然而,在拍摄或者扫描文档的过程中,一个常见的实际问题就是文档获取的时候可能出现弯曲、折叠、甚至褶皱的情况,这对于文档的数字化保存是一个巨大的阻碍。近年来,随着深度学习的兴起,基于深度学习的文档褶皱矫正成为极具研究价值的热门课题。利用深度学习的技术与方法,快速、准确地实现文档图像的褶皱矫正,进而用于后续的视觉任务,对于节约成本与文档数字化有着极其重要的意义。大多数文档图像褶皱矫正的方法主要是借助于对硬件设施的改造与升级,通过对平板式扫描仪等设备进行改装来保证扫描的精准度和平整度,但这种方式会极大提升设备价格、降低设备便携性。另外,在褶皱矫正完成之后,绝大多数的文献仅考虑到矫正完成之后的图像质量是否有所提升,而并未考虑到使用文本定位和识别方式对后续的内容分析和信息提取任务是否有所帮助,从而导致图像的整体褶皱程度虽有下降,但却使得图像中的文本内容出现模糊、淡化甚至消失等现象。针对上述问题,本文的主要工作有:(1)提出了面向图像文本定位和识别任务的图像矫正评价指标,即在保证图像中文本的定位和识别准确率的前提下,尽可能提升图像的整体质量,使图像的褶皱程度降到最低。同时,根据该评价指标设计生成了一个大型的文档图像数据集。该数据集不仅包括了原始图像与褶皱图像,并且对文档图像中文本的位置坐标以及其对应的文本内容进行了标注,方便进行文本定位和识别准确率的定量比较。(2)提出了以U-Net、GAN(Generative Adversarial Network)为核心架构的面向文本定位和识别的图像褶皱矫正Doc GAN(Document Generative Adversarial Network)框架。该框架主要包括三个创新:第一,在网络训练的过程中对于生成器的解码器部分提出区域自适应(region-adaptive)的策略,将文字和背景部分分开考虑并对不同区域设计不同的损失函数以保证后续高级视觉任务的准确率;第二,在网络训练前对原始图像生成二值化Mask以保证在训练过程中文字、背景区域的损失函数权重可以自适应确定;第三,加入对抗网络使得矫正后的图像更加清晰,保证图像整体质量的提升。实验证明,所提出的Doc GAN框架在本文收集整理的数据集上,不仅保证了文本定位和识别率,并使整体的图像质量也有了明显的提升。此外,本文在后续通过进一步实验,证明了所提出策略的有效性。
其他文献
目的:通过磁共振测量舌鳞状细胞癌的肿瘤总体积和浸润体积,研究它们与舌鳞状细胞癌预后的关系。材料和方法:收集2008年8月至2016年11月就诊于福建医科大学附属第一医院口腔颌面外科的舌鳞状细胞癌患者的住院信息,依照纳入排除标准筛选了180例患者,收集这些患者的临床资料及生存情况。基于磁共振结合福建医科大学附属第一医院放疗科的Ray Station TPS(瑞典)(Treatment plannin
船舶中央冷却水系统一般采用定速电动机与离心泵相结合,当海水温度降低及主辅机设备热负荷减小时,只有通过三通阀保证低温淡水出口的温度维持恒定,因此理论所需要的海水量比实际的海水量少很多,但定速电动机却一直运转,这就造成了能源的浪费。本文通过仿真实船的中央冷却水系统,根据热负荷的分布情况,海水的温度、流量与泵浦的特性曲线分析比对,当在海水温度降低或主辅机负荷减少时,通过变频技术降低电动机转速使之与泵浦的
在有机或有机无机杂化钙钛矿型光伏器件中,金属氧化物半导体薄膜(Ti O_2,SnO_2,Zn O等)经常被用作修饰层来改善器件性能,而如何减少金属氧化物表面缺陷往往在对太阳能电池器件性能改善效果上产生了至关重要的影响。因此,通过高温热退火和紫外臭氧处理去除界面缺陷在太阳能电池器件上被广泛的应用与研究。然而与太阳能电池不同,光电倍增型光电探测器可以通过引入界面缺陷俘获电荷,降低暗电流,同时由缺陷引起
利用非线性分析方法解决非线性偏微分方程中解的存在性及其性质问题是目前国际数学研究中非常活跃的研究领域。由于其在数学科学发展中的前瞻性、与其他学科的交叉性和应用领
舌鳞状细胞癌是临床上最常见的口腔癌,由于舌体独特的组织学特征,即拥有丰富的淋巴循环以及高度肌肉化的结构,使得舌癌较其他类型的口腔癌更容易发生局部侵袭与远处转移,这也
议论文是国内外各类考试中常考的体裁之一,然而大多数英语学习者发现进行有效的论证绝非易事。立场标记语作为作者情感态度的表达,是议论文的主要特点之一。近年来,针对立场标记语的研究主要集中于学术语篇,鲜有研究针对学生的议论文写作。本研究基于Hyland(2005)的分析框架,分析立场标记语在中国英语学习者议论文中的分布特点,以及高分组和低分组议论文在立场标记语频次和词汇多样性方面的区别。本研究语料包括1
本次实践报告是笔者在翻译《变压器招标文件》的过程中,对本次翻译实践做出的分析、反思和总结。翻译质量评估是应用翻译学的一个重要组成部分。然而,长久以来,对于翻译质量
封闭式气体绝缘组合电器(GIS)隔离开关中的绝缘拉杆是整个设备的关键部件之一,在运行中承受着极大的电压降和转动作用力,导致它的内部和外表很容易出现磨损等一系列缺陷,这些缺陷将导致拉杆表面电场分布畸变,发生局部放电,并最终导致沿面闪络。而目前国内外单独对GIS绝缘拉杆局部放电的研究仍存在不足。为了及时发现GIS绝缘拉杆故障,需对其局部放电特征进行针对性研究。文中调研了绝缘拉杆在生产和运行中可能出现的
人类对能源需求逐渐加大,海洋油气开采是解决这一问题的重要途径。海洋石油钻井平台是开采海洋油气的主要设备。钻井平台需满足海上作业需要的稳定、灵敏、安全等条件。半潜式钻井平台的推进系统是整个平台平稳运行的重要保障,其冷却系统又是推进系统中的重要组成部分,冷却系统主要作用是冷却推进系统内需进行冷却的设备,保证推进器正常工作。随着电力电子技术的发展和船舶自动化水平的不断提高,变频调速技术进步飞快,变频控制
架空输电线路是目前长距离输送电力的主要方式,为我国经济建设提供了强有力的电力保障,但是其线路架设里程长、分布面积广,日常人工检修难度大。为了保证电力系统的稳定运行,减小电力作业人员的工作强度,应智能化电网时代需求,近年来输电线路带电作业机器人的研究工作成为电气领域的焦点,但是传统的输电线路机器人人工吊装上下线方式严重影响了其作业效率,而且存在人身安全问题。因此,输电线路机器人如何自主安全高效地完成