基于生成式对抗网络的汉字生成方法研究

来源 :天津师范大学 | 被引量 : 2次 | 上传用户:yueyue7373
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉字作为信息传播的重要媒介之一,是世界上四分之一的人口持续使用数千年的文字,对人们日常工作、生活、学习、交流、工业化生产等均起到了不可磨灭的重要作用。使用信息化技术处理汉字信息已经成为模式识别领域的重要研究分支,它涉及了汉字生成技术、字体转换问题以及深度神经网络等,是一项十分综合性的研究课题。与英文字库的26个字母不同,汉字常用字符集GB2312共由6763个字符组成,数目庞大且笔划部首种类多样。而手写汉字相比于印刷体汉字,则表现出笔划结构更为复杂、笔划部件大小以及相对位置形变较大等特点;其次,手写体汉字易受到书写人书写风格的影响,笔划粗细长短不均匀、笔划简写、笔划丢失等现象屡见不鲜,这极大地增加了汉字生成任务的难度。本文研究了一种基于生成式对抗网络(Generative Adversarial Networks,GAN)的汉字生成方法,它将编码器-解码器思想融合于GAN生成器结构,并采用了增加跳跃连接的U-Net网络作为生成器网络架构。该方法旨在为汉字生成问题的解决提供一个具有普遍性的算法,具体工作如下:(1)本文提出了一种基于HCCG-GAN的书写人风格汉字生成方法,实现了由印刷体到手写体的汉字生成任务。该方法以生成不同书写风格的汉字图像为目标,结合迁移学习思想,采用两阶段训练方法。首先通过训练一个大型的印刷体到手写体的字体转换模型,用于寻找不同字体间的特征转换关系,之后采用部分少量由特定书写人撰写的汉字样本用于微调网络模型,最终生成具有相同书写风格的汉字图像。本方法融合字体风格损失、编码一致损失、L1距离损失等,用于衡量生成的汉字图像样本与目标字体图像在字符书写结构和字体风格上的差异,并在汉字数据集CASIA-HWDB1.0上进行实验,采用图像像素和图像风格两种差异性作为评估指标评价生成结果。相较于其他相关汉字生成方法,HCCGGAN方法能够生成逼真的书写人风格汉字图像。(2)本文提出了一种基于PCCG-GAN的手写体汉字规范化方法,实现了由手写体到印刷体的汉字生成任务。该方法从汉字识别的角度出发,着眼于传统方法中的预处理步骤,将字体风格转换的汉字生成结果视为手写汉字规范化的最优状态,旨在为手写汉字识别提供新的可能性思路。本方法采用对称的网络提取手写汉字多尺度信息并进行特征融合,以减少输入输出之间共享的大量低级别信息以及下采样过程中的信息丢失。其次,本方法设计了集成损失函数,用于衡量生成结果与真实数据之间的差异性,并在汉字数据集CASIA和CASIA-HWDB1.1上进行实验,并采用图像像素差异性和文字识别准确率作为评估指标。实验结果表明,PCCG-GAN方法在CASIA-HWDB1.1数据集上进行字体转换后的汉字识别准确率比转换前高0.86%。(3)基于本文提出的汉字生成方法,设计并搭建了可视化的实验系统。该系统以手写体汉字和印刷体汉字两个方面的汉字图像生成为主,主要展示了实验系统的可视化界面功能,实现了书写人风格汉字生成的手写体目标转换以及手写汉字规范化的印刷体目标转换。该实验系统的良好运行验证了本文方法的可应用性与可行性。
其他文献
本文从农业产业化的角度对板栗的选种、种植、贮藏、加工和销售等一系列问题进行了探讨。
2003年文科综合历史试题涉及到了长城的历史作用、古今的土地制度、党的民主与法制建设、14-17世纪中期的中外科学技术,美国的西进运动与
随着交互类手机终端业务的蓬勃发展,传统的显示屏已经无法满足人们对智能手机显示品质的要求。纵观整个行业,如今高端手机市场都正在向AMOLED屏幕发展,而高端屏幕则需要高性能的显示驱动芯片和数据传输接口的支持。本文基于MIPI联盟最新的MIPI DSI-2和MIPI C-PHY协议,研究设计一款融合D型物理层和C型物理层的高速显示数据传输接口。相对于现有基于D型物理层的显示接口,其可以适配多种上位机的
基于高德地图POI(point of interest)开放性数据,以长沙市为研究区域,利用ArcGIS10.4的核密度、空间主成分等空间分析工机具,分析城市公共服务设施的布局特点,并对市域生活便
历朝历代祭祀孔子的庙宇,可分为两类——文庙和孔氏家庙。其中,文庙又被称为"夫子庙",曾是各级官员祭祀孔子、举行纪念性活动的场所,也是官办的高等学府及文教中心。自唐贞观
伴随科技的发展,人们对精神层次的需求也日益增大,各大视频网站为了更好的满足大众对内容需求,都在研发各自的产品,例如短视频。近几年虚拟现实(VR)和增强现实(AR)的热度持续
自1998年以来,中国正式进入了房地产市场化,房地产行业开始快速发展并且占中国经济中的分量越来越重。随着这些年来房价的大幅波动,人们越来越关注会导致房价波动的一些重大
自1990年以来,美国劳伦斯利弗莫尔实验室C.T.Walters等人开始对热容型激光器进行研究以后,热容激光器就逐渐广泛使用于医疗,工业,军事等方面,在未来发展中,有望使用在载人航
中国境内分布有三种狐属动物,藏狐(Vulpes ferrilata)、赤狐(Vulpes vulpes)和沙狐(Vulpes corsac)。藏狐在我国广泛分布于青藏高原,是资源较为丰富的物种之一。沙狐分布在与青
烟草花叶病毒(Tobacco mosaic virus,TMV)是为害最严重的植物病毒之一。近年来,利用纳米技术在控制植物病原体侵染方面显示出较好应用前景。纳米氧化锌(ZnONPs)和纳米二氧化硅(SiO