论文部分内容阅读
如今随着社会科学技术的飞速发展,由于手机携带方便、功能日趋完善等原因,导致智能手机的普及率成直线上升趋势,移动互联网用户的规模愈来愈大。如今在国内外,英语、汉语等语言文字的OCR识别技术已经相当成熟,利用OCR技术进行某种语言的文本翻译也越来越火爆,但在新疆,利用OCR技术实现维吾尔文的识别与翻译的研究尚不成熟,因此研究维吾尔文的OCR技术与机器翻译技术,对于新疆的经济建设、各民族的文化交流、以及加快维吾尔文字信息化发展具有积极的作用。本文主要研究了维吾尔文的光学字符识别技术(OCR)和维汉统计机器翻译技术,在Tessetact-OCR平台上训练出维吾尔语图文识别训练模型,并其作为基础在Android平台开发维汉光学字符识别与翻译一体化的应用程序,实现了从维吾尔图文中识别出文字信息、并实时翻译功能。首先在包含维吾尔文字的图片识别方面,系统利用局部自适应阈值二值化和形态学闭运算去噪等图像处理算法对目标图文进行预处理,提高Tessetact-OCR识别成功率,基于改进的多尺度分水岭分割算法对维吾尔文图片进行切分,再利用Tesseract引擎对维吾尔文进行识别训练。然后在词汇存储及翻译方面,准备了4.9万条维汉单词和平行句对,利用NiuTrans Server工具包搭建维汉翻译系统,并在Azure云平台上实现翻译功能为客户端提供API接口,最后使用Java语言在Android Studio集成开发环境上实现Android客户端。