联机手写汉字串的部件拆分识别方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:qiaoweizhuo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现代社会中,随着互联网和无线互联网的发展,各种移动信息终端设备(如PDA, HPC)得到了广泛的应用,联机手写输入日益成为一种重要的输入手段。联机连续手写体字符识别是手写体识别的发展趋势。从目前联机汉字识别技术的发展来看,大多数的识别系统主要是针对单个汉字字符进行识别的,首先需要对连续输入的字符进行分割,分割为单字符数据,然后由单字符识别引擎进行识别。上述系统的性能主要决定于能否将连续输入语句分割为单个字符。现有的分割算法大多是依赖于字符之间的空间分离性,能否正确分割就决定于书写时字符之间的间隔能否满足分割算法的要求,因此现有的联机识别系统大多对于字符之间具有粘连或分离的情况会分割失败或存在过切分。针对现有识别系统的这些弱点,本文提出将分层构筑(Level Building, LB)和动态时间归正(Dynamic Time Warping, DTW)算法相结合(LB DTW)的联机手写汉字串识别方法。LB DTW算法不需要预先将连续输入的字符预分割为单字字符数据,而直接将连续输入的待测字符序列与所有参考模式进行DTW匹配识别。LB算法根据参考模式与待测片段的DTW匹配识别结果将连续的待测序列分割为连续的层,每层对应一个参考部件模式。由于LB DTW算法将字符分割识别同步进行,字符分割是基于上一层字符识别结果的,分割错误可以根据识别信息得到纠正,并且统计语言信息可以融合到LB算法分层之间进行优化搜索。针对连续汉字字符识别,本文抽取汉字的手写体部件字符作为结构子模式,建立了手写体汉字部件字符集,完成了GB2312-80中6,763个汉字的部件编码并做了数据统计工作。LB算法将连续的手写体序列进行基于部件的分割和识别,识别为部件串序列,再进一步解码为汉字序列。LB DTW算法对手写体字形的变化不敏感,字符分割不过分依赖于字符的空间分离性,系统的性能关键在于待测片段与参考模式的识别结果,而现有的单字符识别器已经达到了一个较高的识别率。实验结果表明该方法对连续多字手写体有较好的识别效果。
其他文献
跨企业组织又称为虚拟企业组织,是面对机遇产品,由多个具有各自专长的敏捷企业联合起来组成临时性组织进行机遇产品的承接、研制、开发与经营的新型企业组织形式。跨企业项目是跨企业组织最主要的生产运行方式。跨企业项目运行过程中存在着多种约束条件,这些约束条件制约着项目的进展状况。资源约束往往成为在跨企业项目运行的主要制约因素,合理利用跨企业项目中有限的资源是跨企业项目成功的关键,项目计划是调配资源有效使用的
在允许各种网络资源以开放方式运作的前提下,入侵检测系统成了确保网络安全的一种必要手段。入侵检测就是发现或确定入侵行为存在或出现的动作,它实际上是一种信息识别与检测技
本文通过软件Agent技术建立一个油田开发智能软件社会,实现对压裂方案制定决策系统协同设计的模拟。 压裂方案制定决策系统是涉及多个单位协同设计和采用多种计算方法的复
软件复用的实践有3个趋势,一是在软件领域将软件复用的实践惯例化、用户化,不仅要考虑技术的因素,而且要考虑管理的因素;二是将复用技术集成到软件开发过程中,并且研究软件过程形
支持向量机(Support Vector Machine,SVM)是以统计学理论和结构风险最小化原则为基础的,一种处理小样本问题的数据挖掘方法。由于其具有完备的理论基础和很好的泛化能力,被广泛应
Agent技术是一个迅速发展的研究领域,目前已经广泛应用于商务、工业、军事、教育等方面。专家们指出:在未来10年内大部分信息技术的发展都将受到Agent的影响,并且许多消费产品将
2013年2月在浙江省、上海市、江苏省、安徽省爆发的H7N9甲型流感病毒在全国范围的广泛传播,引起了人们的广泛关注。所谓甲型流感病毒(InfluenzaA virus),也称为A型流感病毒,该病毒
随着我国社会主义市场经济体制的建立和发展,企业全面进入市场,成为市场竞争的主体,招标投标制度成为企业间市场竞争的一种重要方式,投标的成败已经对企业的销售额乃至整个企
由于Internet技术的广泛应用,各门学科应用特别是数据密集型、计算密集型的应用对广域网络中海量数字信息分析处理和协同合作能力的要求越来越高,为此人们提出网格计算技术,
本文对径向基(RBF)神经网络的各种串行在线学习算法进行了系统的分析研究,根据RBF网的原理与串行算法的特征提出了把分布式扩展卡尔曼滤波器(Decoupled Extend Kalman Filter