论文部分内容阅读
目前市场上针对现代汉语的文字识别技术已趋于成熟,然而,由于古代文献存在背景噪声的干扰、不同书写风格等客观原因,让古代汉语文字的识别变得较为复杂,所以本文针对中国古代汉语文字识别方法进行研究和设计实现。首先,通过对国内外相关技术的研究现状进行分析,本文对文字图像预处理方法和深度神经网络进行了研究,建立模型识别和算法验证测试。图像预处理方面,在图像预处理部分:先利用MATLAB工具,根据迭代法原理设计程序,完成图像二值化的仿真实验;其次利用线性灰度拉伸图像增强算法和二次函数图像增强算法和倾斜校正算法,通过四对透视变换前后对应点的坐标算出畸变参数从而求得变换前后关系,达到还原图形,实现透视变换。深度神经网络技术方面:首先对Tesseract-OCR开源引擎基本原理进行介绍;其次对LSTM神经网络识别算法进行研究,包括基于CNN的图像特征提取和基于LSTM的语义信息提取;最后,对模型结构及测试结果进行总结。最后,本文基于Tesseract-OCR进行了古代汉语文字识别原型的设计,包括系统架构、系统功能的设计和系统原型实现与功能测试,测试结果表明基于Tesseract-OCR的古代汉语文字识别方法的设计可以满足识别场景中的实际需求,该系统原型具有较高的市场价值。