【摘 要】
:
深度学习的高速发展,引起了众多研究学者的关注,而文字作为人类相互交流获取信息最直接表达方式,在我们日常生活中缺一不可。由于藏族区域信息科技发展比较缓慢,藏文的检测与
论文部分内容阅读
深度学习的高速发展,引起了众多研究学者的关注,而文字作为人类相互交流获取信息最直接表达方式,在我们日常生活中缺一不可。由于藏族区域信息科技发展比较缓慢,藏文的检测与识别的相关研究较少,藏文整体结构复杂,与中英文差异较大,所以不能完全使用中英文检测与识别的成熟技术,需要根据藏文自身的特点,改进中英文检测识别技术,设计出更适合藏文的检测与识别系统。本文重点对基于深度学习的藏文古籍文献文本进行检测,灵活运用了神经网络,实现了藏文古籍文献文本行的定位。使用自然场景下的文本检测算法在于藏文古籍文献有着类似于自然场景下的文本特点,外界干扰物多,背景复杂。本文主要使用了两种不同的模型对藏文古籍进行检测,具体的工作如下:(1)本文对藏文古籍数据集进行了分析,并使用GAN数据扩充增加了数据集的数量,建立了一个藏文古籍文献数据集,总共包含了3396张图片,对图片进行标注分析,用于藏文古籍文献文本检测算法的训练。(2)本文采用基于CTPN模型的藏文古籍文献文本检测方法,CTPN是一个基于CNN与RNN相结合的检测算法,利用VGG16对图像进行特征提取,双向LSTM对字符序列的特征进行学习,最后用NMS来对预测出的文本框进行细化,用文本线构造法将预测文本框合并成一个整的文本框。实验表明,CTPN模型下的藏文古籍文献文本检测取得了不错的性能,算法的精确率为0.89。(3)本文采用EAST模型对藏文古籍文献进行文本检测。EAST是基于FCN与NMS相结合的检测算法,用FCN直接产生文本框预测,再使用LNMS来删除多余的文本框,删除了不必要的中间步骤,进行端到端的训练和优化,但在藏文古籍上的文本检测的精确率不高,需要进一步的研究。
其他文献
提及家庭暴力的话题,社会大众的印象一般是以两性婚姻暴力为代表的成年人间的家庭暴力,而对未成年人遭遇家庭暴力的关注却相去甚远,甚至认为是一种教育行为。相比于两性婚姻
开明派是一个同人聚合较为松散的文学文化文人集合。开明派同人因具有相同的文化志趣和社会理想于20世纪20年代初聚集在一起,主要成员有经亨颐、匡互生、夏丏尊、朱自清、丰
自人工智能概念出现至今,人类从未停下对机器博弈探索的脚步。机器博弈依据其对于博弈局面信息了解的程度,可分为完备信息博弈和非完备信息博弈。如围棋,国际象棋这类博弈竞
单目图像场景深度结构研究一直是当前计算机视觉任务中重要的组成部分,该任务关注于如何从单目图像中获取与之相对应的场景深度结构。在Marr奠定的计算机视觉理论中,一直将其
可变长压缩算法根据Huffman编码原理对数据进行最大化压缩,方便数据进行存储和通信,它的应用领域包括图像和视频处理、音频处理、网络和数据备份等等。尽管可变长压缩算法很
随着物联网的日益成熟,物理世界中实体数量的爆炸增长,物联网搜索技术通过传感器采集并整合物理世界中的实体信息,及时为用户提供所需实体的状态信息。而由于实体的异构性与
目前国际上主流的视频编码标准均采用基于宏块的预测编码与变换编码相结合的混合编码框架。编码标准的核心思想是充分利用视频帧内和帧间的时空相关性,尽可能减少数据冗余。压缩后的码流在传输过程中,对电磁干扰及报文丢失的免疫能力特别薄弱。帧内一个编码单元的错漏会带来差错在当前帧和后续帧中持续蔓延,大大影响终端用户的视频观看体验。视频差错掩盖算法在解码端根据帧内和帧间有用的时空域信息,恢复在传输中受损的宏块和帧
网络游戏直播作为一个新兴产业,一直以来并未得到学界的重视。直到2015年的“耀宇诉斗鱼”案的出现,才使得游戏直播这一特殊多媒体传播方式开始引起人们关注,此后开始有学者
通过对核反应堆功率分布的实时监测,可以更好地保证核电站运行的安全性和经济性。对于第二代压水堆来说,堆内测量系统只能通过部分组件内的定期测量重构堆芯功率分布,无法实
动态场景下,动态参与者会打破传统VSLAM(Visual Simultaneous Localization And Mapping)算法的静态假设,常见的作法是把动态参与者剔除,只将静态参与者作为相机位姿估计的参