联机无约束手写体汉字词组切分研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:y412327391
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,汉字识别技术已经取得了极大的进步,市场上也出现了不少成熟的汉字识别产品,然而,该领域仍然存在着很多难点问题有待我们去研究解决,联机无约束手写体汉字词组识别就是其中之一。联机无约束手写体词组识别的书写区域没有方框限定,并且每次都是输入一个词组,这无疑更符合书写者的书写习惯,也使书写者书写的更流畅更快捷。但是,如何进行联机手写体字符的切分仍然是个未解决的难题,以往的字符切分方法注重于脱机字符的切分,对联机字符切分方法的探索还非常的少。 本文在总结以往字符切分方法的基础上,对大量联机无约束手写体汉字词组样本开展切分方面的研究,提出了基于笔矢量特征(Stroke Vector Feature)和笔速度特征(StrokeSpeed Feature)的新型联机字符切分方法。论文的主要工作包括以下几个方面: ◆介绍和总结了以往字符切分的常用方法,包括基于统计特征的切分方法、基于汉字结构的切分方法、基于连通域分析的方法、基于识别的方法和整体识别的方法,并对各种方法的优缺点进行分析,指出了各方法的应用范围。 ◆研究了大量的联机无约束手写体汉字词组样本,并在实验的基础上提出了两种字符切分特征--笔矢量特征和笔速度特征。切分实验结果表明,这两种特征运算复杂度低,均能以较高的效率提出切分候选线,适合放在粗切分阶段,尤其是笔矢量特征,切分准确率较高,并对以往字符切分中的粘连、交叠和重叠等难点问题比较有效。 ◆对笔矢量特征深入分析,得出笔矢量特征能以较高概率找到前一个汉字最后一笔的结论,并且用实验进行了验证。在此基础上提出找最后一笔之后前向恢复的切分算法,并探索出一种利用标注最后一笔来测试联机字符切分准确率的方法。 ◆将笔矢量特征应用于切分系统的粗切分阶段,完成和实现了基于识别的联机无约束手写体汉字词组切分系统,并对系统各个部分所用到的技术进行了详细的介绍。实验结果表明,笔矢量特征适合于放在粗切分阶段,基于识别的切分是一种非常有前景的字符切分方法。
其他文献
计算机技术、多媒体技术以及Internet技术的飞速发展带来了大量的图像信息,因此如何有效地、快速地从大规模的图像数据库中检索出满足用户需要的图像是目前一个急需解决的重
本文通过对荣华二采区10
期刊
目前,随着IP技术的不断发展,以VOIP技术为核心的数据网络通信已经逐步融入传统语音业务领域,并逐渐向VOIP可视业务发展。随着IP接入方式的不断灵活,目前的移动终端如PDA、手
电信增值业务是运营商新的经济增长点。随着电信运营商的增值业务提供方式由传统的PSTN向智能网(Intelligent Network)以及下一代网络NGN(Next Generation Network)演进,增值