论文部分内容阅读
模式识别是人的一种基本的认知能力或智能。现有的模式识别理论和方法在对事物认识方面与人类的认知过程存在较大差异且学习能力不足。本文把认知科学、心理学和信息学结合起来,研究基于原型匹配的认知模式识别的理论和方法。并以此理论为基础,对无字库智能造字的理论和技术进行了研究。对认知模式识别理论进行了研究与探讨。将认知心理学知觉理论中的知觉恒常性、成分识别理论和原型匹配理论引入机器模式识别,对模式不变性理论,模式的组成理论和认知匹配理论等进行了研究与探讨,并提出了认知模式识别理论的系统框架。以认知模式识别的理论为基础,对无字库汉字智能造字理论进行了深入的研究与探讨。从汉字传统造字理论出发,建立了汉字的智能造字数学模型,提出了汉字智能造字的系统结构和框架。通过对汉字字符集GB18030-2005中的所有汉字组成成分的分析和抽象,总归归纳出汉字的原型即汉字基元1085个。对汉字原型之间的组合关系即汉字结构进行了研究。通过对汉字字符集GB18030-2005中的所有汉字的拆分和结构分析,提出了汉字的18种结构。从而丰富和完善了智能造字理论。为了将无字库智能造字理论付诸实施,本文对无字库智能造字存在的一些关键技术进行了深入的研究。编码是汉字智能造字首先需要解决的问题。本文以大量实验深入研究了汉字智能造字中汉字的编码方法。在基元+结构的汉字编码方法基础上,应用拓扑知觉理论中整体优先于局部的思想完善了编码方法。开发了汉字编码实验平台,完成了GB18030-2005汉字字符集中共七万多汉字的编码实验,实验表明该编码方法符合人对汉字先整体后局部的认知规律,与中小基础语文教育接轨,并且编码重码率为零。深入研究了基元到具体的汉字组成成分的映射方法,任一汉字的各个基元按照相应知识经拓扑几何变换后,就可造出该汉字。从汉字基元映射的特点出发,建立了汉字基元的几何变换模型。深入研究了基元映射知识的获取方法,提出了基于区域的和特征提取的仿射变换系数自动获取算法。对汉字字符集GB18030-2005中的所有汉字进行了映射知识获取和组字实验。研究汉字智能造字知识中汉字结构知识、汉字基元知识、汉字编码知识以及汉字基元的映射知识等知识的组织和表示。本文提出了用语义网络来表示汉字智能造字知识。分别以汉字字符集GB2312-80,GB18030-2000和GB18030-2005的汉字智能造字知识作为知识源,构建了语义网络,提出了汉字智能造字的语义网络知识表示的存储和推理方法,并提出了语义网络的性能评价方法并进行了分析。在此基础上,根据汉字智能造字的需求,设计开发了汉字智能造字实验平台。