基于分布式视频流文本提取的文本纠错系统设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:fcunui_w
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在多媒体时代,视频已经成为重要的信息载体,对视频中文本的采集对分析视频内容和视频检索推荐有重要意义。现阶段视频文本信息采集的方式有很多,如OCR技术、语音识别技术等,然而没有一种技术可以保证采集结果准确率为100%。本课题所依托的项目使用OCR模型提取视频中的文本信息,但是由于视频中背景的复杂性,OCR模型提取视频中的文本信息变得更加困难,提取出的文本中错误也更多。本文基于视频文本提取的需求,使用OCR模型提取视频文本信息,设计训练文本纠错模型提高视频文本采集的准确度,设计实现基于分布式视频流文本提取的文本纠错系统。主要工作包括:1、详细分析系统的功能性需求和非功能性需求,使用成熟的MVC系统设计模式设计系统总体架构。根据系统需求分析,设计实现系统的功能模块,提供给用户视频文本提取和文本纠错的功能,同时设计实现系统与用户的交互逻辑。2、设计系统数据的保存和处理方式。使用分布式文件存储系统HDFS保存用户视频文件,使用分布式消息队列Kafka实现系统数据处理的解耦。设计实现用户视频信息表保存用户视频信息以及对视频文件去冗余,设计实现视频OCR文本表保存视频采集原始文本,设计实现视频文本纠错结果表保存已校正的视频文本。3、设计训练基于seq2seq框架的文本纠错模型。根据文本纠错任务的特性,在Transformer模型的基础上加入copy机制,同时,在文本纠错任务的基础上加入文本侦错任务,引入多任务学习方法。分析用户数据的分布,爬取相应的语料训练文本纠错模型。本课题系统经过仔细的功能性和非功能性测试,证明了系统的可用性和有效性并在项目中部署运行。本文对本课题系统的设计实现进行了全面介绍,最后对本文的工作进行了总结,并描述了本课题系统的不足和未来的工作。
其他文献
基于深度学习的目标检测与识别技术随着研究的深入也早已进入到了工程领域,但目前被广泛使用的都是基于单帧的检测框架,这种框架能作用于单帧图像任务也能作用于多帧的视频任务。视频的检测与识别任务有一个特点,就是视频是由许多帧构成,前后帧在时间上是存在联系的,同一个目标在相邻帧上的变化存在着运动信息,这种运动信息的存在虽然会造成对焦模糊、运动模糊等现象,但若是能充分的使用这种运动信息,也能提升目标检测与识别
技术侦查措施在国家情报及侦察工作中的不可或缺地位与规模化应用趋势已无需再做多言,现有法学理论研究大多聚焦于对技术侦查措施的概念与特征进行界定,宪法学研究更多体现在
电力变压器是电网正常运行中非常重要的设备,承担着电能的传输和转换功能,其运行的安全性与稳定性直接关系到整个电网运行的安全。近些年的统计数据表明[1],我国变压器保护动作正确率明显提高,但相对于其它保护(线路、母线、发电机等保护)的动作正确率依然较低。差动保护作为变压器的主保护,其正确动作与否直接影响变压器的运行安全。而变压器涌流(和应涌流与励磁涌流)是影响变压器差动保护误动作的一个重要因素。因此,
2013年习近平针对以往粗放式扶贫政策存在的问题提出了精准扶贫,为落实“精准”二字,契合因地制宜、因人施策的新时代帮扶原则,2015年习近平进一步提出了“五个一批”发展策略,其中“发展教育脱贫一批”是新时代开发式扶贫方式的重要体现。习近平教育扶贫观在萌芽、形成、成熟、发展过程中吸收了马克思、恩格斯、列宁等经典作家的相关理论,对马克思提出的反贫困思想、实践论、唯物史观以及人的自由全面发展理论都做出了
研究目的:本研究的目的是观察不同运动时间和运动负荷下miR-199a和mTOR的mRNA表达及mTOR磷酸化和蛋白表达、P70S6K蛋白表达的变化,研究不同时间、不同负荷下心肌细胞内信号的
在物种进化过程中,棉属祖先经历了多次加倍事件,形成了棉属物种特有的复杂基因组,使得人们认知棉属物种基因组更加困难,多个棉花基因组测序工作的先后完成,使人们从基因组水平上认知棉属已成为可能。但大部分棉花基因组数据库是由国外建立并维护的,并且远不如水稻、玉米等物种的生物数据平台成熟,因此,建立一个专属于棉花的基因组学信息管理平台势在必行。论文分析了序列比对、启动子和转录因子预测、染色体定位图生成、系统
背景与目的分析脑室镜造瘘术在儿童脑积水及颅内蛛网膜囊肿中的治疗效果及其影响因素。方法以本中心神经外科2010年5月至2015年6月应用脑室镜造瘘术治疗脑积水和颅内蛛网膜囊
研究目的获得性免疫缺陷综合征/艾滋病(acquired immunodeficiency syndrome,AIDS)是一种全球性的流行病。截至2017年,全球现存3690万感染人类免疫缺陷病毒(human immunodeficiency virus,HIV)。联合国艾滋病规划署2018年的统计数据显示,43%HIV携带者是女性,且大多数为育龄期妇女。世界卫生组织(world health or
目的CCAAT增强子结合蛋白α(C/EBPα)在肺发育中必不可少,可以促进肺分化成熟,其在肺中主要表达于肺泡Ⅱ型上皮细胞(AECⅡ)中。小泛素相关修饰物(SUMO)修饰作为一种重要的蛋白翻译后修饰方法,能够调节转录因子活性、蛋白的亚细胞定位及参与DNA损伤修复的过程。哺乳动物中,发现有SUMO1、SUMO2/3、SUMO4四种SUMO亚型,其中,SUMO1主要以与其他化合物结合的形式存在,SUMO
战后日本通过赔偿外交打开东南亚大门,致力于帮助东南亚地区的社会经济发展,并长期成为湄公河流域五国(柬埔寨、越南、老挝、泰国、缅甸)最大的援助国。日本的国际援助一直是国际学界关注的重要议题,这不仅是因为其在开展对外援助上的长期庞大规模,更在于其独特的国际援助政策所谋求的国家利益。日本青年海外协力队作为日本国际援助政策的实施机构,是日本在受援国获取国家利益的重要手段之一。1965年成立以来,青年海外协