【摘 要】
:
随着互联网的飞速发展,网络上的文本数据量激增,同时也导致了文本质量下降,传统的人工校对早已无法完成如此巨量的工作,文本自动校对技术应运而生。该技术不仅能加快出版节奏
论文部分内容阅读
随着互联网的飞速发展,网络上的文本数据量激增,同时也导致了文本质量下降,传统的人工校对早已无法完成如此巨量的工作,文本自动校对技术应运而生。该技术不仅能加快出版节奏,而且可以利用该技术在企业单位减少大量需要保存的电子文档中的错误,同时在在教育教学方面也能辅助教师评阅试卷,发现其中的拼写错误。传统基于统计和规则的文本校对方法存在诸多问题。一方面规则的制定需要丰富的经验,人力成本高,且这种基于流水线的模式,会由于分词产生的噪音,很容易导致错误累积。另一方面,现有方法仅使用了字或词的特征信息,对于字、词、拼音三种特征信息未进行有效的利用。针对以上问题,本文提出一种基于深度学习的序列标注模型BLSTM-CRF,无需进行人工干预,节省了人力成本,并采用字粒度的特征免去了分词引入的噪音。此外,针对多特征未有效利用问题,对BLSTM-CRF模型进行了改进,采用了网格LSTM和门控机制有效地对字、词、拼音三者进行了多特征融合。本文研究的主要内容主要分为两个方面:(1)本文提出了一种用于中文拼写检查的神经网络架构BLSTM-CRF,即双向长短时记忆网络结合条件随机场模型。它是真正的端到端模型,不依赖于特定于任务的资源,特征工程或数据预处理;其次,通过采用字粒度的向量输入,免去了分词噪音的引入。在新闻和小说两个数据集上的实验表明,模型性能F1值相较于基线模型在新闻和小说的测试集上都有较大提升。(2)本文提出了一种新颖的拼写错误检查模型FL-LSTM-CRF,该模型融合了字、词、拼音三者的特征,充分利用潜在的信息。在SIGHAN数据集上的实验结果证明了端到端框架在拼写错误检查的可行性,同时验证了字、词、拼音三者融合的特征信息在检错任务上的有效性。在使用相同的外部资源的情况下,FL-LSTM-CRF模型明显优于其他模型。
其他文献
随着互联网的快速发展,无纸化、信息化办公逐渐成为主流,各行业对软件系统的开发需求非常旺盛,使得软件开发行业快速发展。但在业务快速增长和变化的过程中,应用开发领域产生
教育部最新版的《大学英语教学指南》(征求意见稿)中把专门用途英语作为大学英语教学的三大主要内容之一,首次针对其内涵、特点、级别、教学安排进行说明。专门用途英语课程
同伴反馈是一项重要的学习活动,学习者以小组为单位合作对彼此的作文反馈、提出改进建议。该方法是形成性评估方法中的一项分支,应用于外语教学,尤其是在高等教育范围。前人
如今,随着汽车的普及,其成为人们日常生活工作中一部分,同时也带来了严重环境问题,电动汽车应运而生。其将逐渐成为汽车产业的主导力量,并成为社会发展过程中不可或缺的力量
平移变换是一种在卷积神经网络训练过程当中广泛使用的数据增强方法。本文用数学方法分析了平移变换的物理含义,发现了平移变换的方法会使卷积神经网络在训练过程当中关注于训练图片中心区域的特征,从而使得卷积神经网络的感受野变得不均匀。如果用厚度表示感受野各区域被关注的程度,则平移变换使卷积神经网络在训练过程当中的感受野呈现出中间高、四周低的“金字塔”型分布。人类的视网膜的感受野各区域的分辨率是不相同的:中心
自越南革新开放以来,经济、社会、文化、科技等领域快速变革,新的事物、现象、概念层出不穷,越语词汇不断发展以满足新的交际和表达需求。占据着越语词汇系统“半壁江山”的汉越词亦不例外,它也紧跟着时代的步伐,不断地丰富与完善。对革新开放时期的汉越词进行研究,能够帮助我们更好的把握越语词汇发展的新趋势,从中透视出越南社会文化的发展面貌。本论文将研究范围限定为越南革新开放时期新出现的汉越词(包括固有汉越词衍生
点击率(Click-Through Rate,CTR)预估是计算广告和推荐系统中一个重要且极具商业价值的问题。在这一问题中,数据大多数是以多类别结构化的形式存在。在经过One-Hot编码之后,
随着科学技术的飞速发展,固态盘(Solid State Drive,SSD)在大规模存储系统中得到了广泛的应用。然而SSD的寿命有限,擦除次数达到一定时,性能会下降,数据可靠性会降低。现有的静态数据布局方法没有考虑到SSD设备之间的磨损差异;而现有的动态数据布局方法使用数据迁移来均衡集群的磨损,会给SSD带来额外的写入开销。针对现有的应用于SSD存储集群的数据布局方法所存在的问题,提出了两种数据布
作为计算机视觉的一项基本任务,目标跟踪是热门的研究领域之一。其中,可见光目标跟踪在自动驾驶、增强现实和自主机器人等方面有着重要的应用价值,而热红外目标跟踪由于不受
遥感是检测地表动态变化的重要手段.由于技术的原因,单个遥感卫星提供既拥有高时间分辨率又拥有高空间分辨率的图像仍然比较困难.而时空融合算法是一种获取高时空分辨率遥感