基于Tesseract-OCR的古代汉语文字识别方法的设计与实现

来源 :南京邮电大学 | 被引量 : 3次 | 上传用户:hsgnln
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前市场上针对现代汉语的文字识别技术已趋于成熟,然而,由于古代文献存在背景噪声的干扰、不同书写风格等客观原因,让古代汉语文字的识别变得较为复杂,所以本文针对中国古代汉语文字识别方法进行研究和设计实现。首先,通过对国内外相关技术的研究现状进行分析,本文对文字图像预处理方法和深度神经网络进行了研究,建立模型识别和算法验证测试。图像预处理方面,在图像预处理部分:先利用MATLAB工具,根据迭代法原理设计程序,完成图像二值化的仿真实验;其次利用线性灰度拉伸图像增强算法和二次函数图像增强算法和倾斜校正算法,通过四对透视变换前后对应点的坐标算出畸变参数从而求得变换前后关系,达到还原图形,实现透视变换。深度神经网络技术方面:首先对Tesseract-OCR开源引擎基本原理进行介绍;其次对LSTM神经网络识别算法进行研究,包括基于CNN的图像特征提取和基于LSTM的语义信息提取;最后,对模型结构及测试结果进行总结。最后,本文基于Tesseract-OCR进行了古代汉语文字识别原型的设计,包括系统架构、系统功能的设计和系统原型实现与功能测试,测试结果表明基于Tesseract-OCR的古代汉语文字识别方法的设计可以满足识别场景中的实际需求,该系统原型具有较高的市场价值。
其他文献
滚动轴承在各个工业领域都扮演着至关重要的角色,但它也是最主要的机械故障来源之一。长期以来,研究人员将振动信号作为故障诊断领域的主要研究对象,导致声学信号分析方法的
近年来,随着我国对外开放的不断深化,特别是随着“一带一路”倡议的深入推进,我国加快了企业“走出去”的步伐,对外直接投资规模迅速增长,我国已经连续四年成为净直接投资国;
摘要:为确保CG-5重力仪静态观测数据的准确性,在观测结果统计与分析过程中,不可忽视固体潮校正和漂移非线性误差。在实际操作过程中,通常通过对比用Tsoft和MT80W计算的固体潮值和CG-5重力仪内部软件提供的固体潮值,以及分析大量CG-5重力仪静态观察数据,来获取CG-5重力仪的固体潮和漂移残留误差,以此来提高CG-5的静态观测精度。  关键词:CG-5重力仪;固体潮;静态观测;残差;漂移  前
随着不可再生石油基能源储备的迅速枯竭以及温室气体排放量增加和日益严重的环境污染问题,丰富而低成本的可再生能源,作为可持续地生产液体燃料和化学品的一个有前途的替代品,在工业界和学术界都引起了越来越多的关注。其中,源自不可食用的木质纤维素的5-羟甲基糠醛(HMF)是衍生自碳水化合物通过糖的酸性条件下水解而产生的产品,被认为是制造高附加值化学品和生物燃料中最具潜力的生物质基的平台分子之一。在HMF的所有