基于OCR技术的名片识别方法研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:muhututu1216
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
名片在日常生活和工作中起着非常重要的作用,已经成为人类重要的身份信息载体。由于名片中包含姓名、地址、电话号以及网址等信息,使得大部分名片为双语混排名片。当前亟需解决名片识别中英文混排情况下,名片识别的速度较慢,准确率较低的问题。本论文研究OCR名片识别方法的新技术进而弥补上述名片识别技术中存在的不足。本文针对现有的二值化方法在名片识别中存在的问题,如全局阈值分割的方法准确度较低,局部阈值二值化方法产生伪影且运行速度较慢,以及全局阈值与局部阈值相结合的二值化算法在处理复杂版式名片时效果较差等缺点,研究了一种全局阈值与局部阈值相结合的优化算法,该方法采用类间方差法对最佳全局阈值进行计算,距阈值较远的像素点,选用全局阈值法对其进行二值化;距阈值较近的像素点,选用局部阈值法对其进行二值化,使得图像的二值化效果更加清晰。采用数学形态学上的膨胀算法对名片图像进行版面分析处理,完成图像版面块的划分。然后利用投影法版面块属性判定,提出文字块。该算法能够快速准确的对复杂名片的版面进行分析。本文针对传统中英文混排的字符识别技术存在的切分不完善、识别率低等问题进行研究,提出了反馈识别的单元合并算法,将左右结构汉字在字符切分时误切分的汉字部件进行合并。实验表明,该方法优于常规的部件合并方法。部件合并后,对粘连的中英文字符进行检测和重切分,提高字符识别准确率。最后,对名片文本信息进行分类,在启发式规则分类的基础上,加入了版面信息对其进行辅助分类,大幅度地提高了文本信息分类的准确性。本论文利用提出的方法对名片进行测试,并与原有方法测试的结果对比分析,得出基于OCR技术的名片识别方法识别准确率高、复杂低和速度快,适用于各种版式的名片。
其他文献
高速公路特长隧道的施工阶段,软散以及断裂带等地质情况对隧道施工的影响较大。论文着重探讨在复杂地质条件下,隧道施工通道与正洞交叉口处结构在三维受力情况下的施工方法。
为探究人行双链体系悬索桥的静力及动力特性,建立有限元模型分析了结构在人群荷载及地震作用下的受力特征,并与相同矢跨比下的单链体系桥进行对比。结果表明:在相同的设计参
在道路改扩建过程中,为降低建设成本,部分构造物可改造利用,例如,涵洞拼接加长.论文分析了涵洞拼接后新旧涵洞的相互作用,总结出各类型涵洞拼接方式以及优缺点,提出施工时需
近年来,我国经济高速发展,社会进步、基础设施不断完善。我国是人口大国、生产大国,对于人们出行以及货物运输都有极高的要求,因此需要不断完善各种交通基础设施。高速公路等
由于我国是世界上残障人士最多的国家,在进行道路设计时应当充分考虑这部分的实际需求,以保障其日常出行的便利性和安全性。鉴于此,在开展市政道路设计时,往往需涉及无障碍设
分析现阶段我国城市规划设计工作的开展情况,可知基于生态要求的生态城市设计规划工作非常重要。其可以促使城市规划设计内容更加科学合理,更符合人们未来进行生态化生产生活
从美国引种栽培13个芍药与牡丹的组间杂种,对其物候期及主要性状进行了观测研究。结果表明,芍药与牡丹的组间杂种完全可以在北京的气候条件下正常生长,无病虫害出现,适应性强,几乎
本文通过分析中国石油油气田地面工程现状、主要建设成果和生产运行指标,详细总结了近年来中国石油油气田地面工程技术进展、科技创新及推广应用的情况,阐述了油气田地面工程
从矿山地质生态修复工作的发展历程入手,对修复矿山地质生态的主要措施展开分析,总体实现了矿山地质生态修复的高效化,希望能够为有关人士提供帮助。