论文部分内容阅读
在金融业务中,存在大量如报销、核验等对表单票据进行识别的需求。传统的文字识别算法对图像质量要求很高,且识别精度较低,具有更高准确率和鲁棒性的深度学习算法成为近年来的发展趋势。目前基于深度学习的表单票据识别中尚存在若干难题:一是票据可能存在弯曲折叠的情况,导致文本行不平直,从而影响文字识别;二是财务报表中存在无边框表格,通用语义分割模型无法准确定位识别;三是印章中的弯曲文本识别存在较大困难。本文围绕上述表单票据识别中的若干难题展开研究,取得的主要研究成果如下:(1)针对表单票据存在折叠和弯曲的情况,使用改进的扭曲文档矫正模型DocUNet进行矫正。模型结构为两个U-Net级联,并在第一个U-Net中加入SE模块以增强特征提取能力。第一个U-Net预测出一个大致的复原预测图,第二个U-Net对其进行高分辨率修正,从而预测出表单中每一个像素的偏移量,实现对图像的矫正。(2)分别使用基于MobileNet-v2的Sea1SSD模型、带有注意力机制和SE模块的AttentionDB模型和ASTER模型进行印章区域定位、印章内弯曲文本检测和弯曲文本识别。通过采用复杂的特征融合机制提高分割准确率,通过提高感受野的范围增强对小文本和模糊文本的定位效果,通过基于CRF的文本矫正网络进行文字纠错。模型对印章内弯曲文本的定位精度达95.6%,文字识别精度达96.1%,接近水平文本的定位和识别精度。(3)使用带有注意力机制和SE模块的Table-UNet模型对表单中的表格进行定位提取。通过为表格内像素分配更多权重的方式,使模型更聚焦于表格区域内部。通过精心设计的后处理,将预测的表格区域分割图还原为四边形。采用同样的模型对表格线进行提取,并将卷积核设置成较大的长宽比以适应其特点。结果表明,模型在自建财务报表数据集上的识别精度达95.1%,优于PageNet、dhSegment等主流表格识别模型。(4)开发出一种基于Web的表单票据通用识别系统,可以实现对常用发票和财务报表的图像扭曲矫正、印章定位与识别、表格识别和文字识别等多种功能,系统具有较高的识别精度、较强的鲁棒性和较快的响应速度。