论文部分内容阅读
目前,汉字识别技术已经取得了极大的进步,市场上也出现了不少成熟的汉字识别产品,然而,该领域仍然存在着很多难点问题有待我们去研究解决,联机无约束手写体汉字词组识别就是其中之一。联机无约束手写体词组识别的书写区域没有方框限定,并且每次都是输入一个词组,这无疑更符合书写者的书写习惯,也使书写者书写的更流畅更快捷。但是,如何进行联机手写体字符的切分仍然是个未解决的难题,以往的字符切分方法注重于脱机字符的切分,对联机字符切分方法的探索还非常的少。
本文在总结以往字符切分方法的基础上,对大量联机无约束手写体汉字词组样本开展切分方面的研究,提出了基于笔矢量特征(Stroke Vector Feature)和笔速度特征(StrokeSpeed Feature)的新型联机字符切分方法。论文的主要工作包括以下几个方面:
◆介绍和总结了以往字符切分的常用方法,包括基于统计特征的切分方法、基于汉字结构的切分方法、基于连通域分析的方法、基于识别的方法和整体识别的方法,并对各种方法的优缺点进行分析,指出了各方法的应用范围。
◆研究了大量的联机无约束手写体汉字词组样本,并在实验的基础上提出了两种字符切分特征--笔矢量特征和笔速度特征。切分实验结果表明,这两种特征运算复杂度低,均能以较高的效率提出切分候选线,适合放在粗切分阶段,尤其是笔矢量特征,切分准确率较高,并对以往字符切分中的粘连、交叠和重叠等难点问题比较有效。
◆对笔矢量特征深入分析,得出笔矢量特征能以较高概率找到前一个汉字最后一笔的结论,并且用实验进行了验证。在此基础上提出找最后一笔之后前向恢复的切分算法,并探索出一种利用标注最后一笔来测试联机字符切分准确率的方法。
◆将笔矢量特征应用于切分系统的粗切分阶段,完成和实现了基于识别的联机无约束手写体汉字词组切分系统,并对系统各个部分所用到的技术进行了详细的介绍。实验结果表明,笔矢量特征适合于放在粗切分阶段,基于识别的切分是一种非常有前景的字符切分方法。