【摘 要】
:
随着外国人对学习中文的热情高涨,开发一个中文语病分析工具将会为中文的教学提供较大的帮助。但是目前市面上已经有比较成熟的英语语病分析工具,而与中文相关的语病分析工具至今仍待发展。因此本文旨在开发一个基于深度学习的中文语病分析系统,该系统可以判断一个中文文本段是否有语病(Detection)、识别出语病类型(Identification),并指出语病在文本段中的位置(Position)。本文在已有的研
论文部分内容阅读
随着外国人对学习中文的热情高涨,开发一个中文语病分析工具将会为中文的教学提供较大的帮助。但是目前市面上已经有比较成熟的英语语病分析工具,而与中文相关的语病分析工具至今仍待发展。因此本文旨在开发一个基于深度学习的中文语病分析系统,该系统可以判断一个中文文本段是否有语病(Detection)、识别出语病类型(Identification),并指出语病在文本段中的位置(Position)。本文在已有的研究基础上,提出较新的研究方法实现中文语病分析模型,并开发一个简易的系统实现对模型的应用。首先,本文将任务视作序列标注问题,采用LSTM-CRF作为基础模型,并在此基础上分别从模型输入和模型网络结构这两个角度提出了三个改进模型:一是基于融合字嵌入的中文语病分析模型。该模型在LSTM-CRF模型的基础上,采用融合字嵌入技术对模型输入进行处理;二是基于多任务学习的中文语病分析模型。该模型在第一个改进模型的基础上将任务拆分成文本二分类任务和序列标注任务,并引入多任务学习机制实现两个任务共同学习;三是基于BERT的中文语病分析模型。该模型是在第二个改进模型的基础上,特征表示层采用BERT模型替代融合字嵌入模型。其次,本文分别在CGED2016_HSK、CGED2017和CGED2018三个测试集上对本文设计的四种中文语病分析模型进行对比实验。实验证明了三个改进模型均在一定程度上提高了模型性能,其中基于BERT的中文语病分析模型效果最佳,在Detection、Identification和Position阶段取得的最佳F1值分别是0.758、0.517和0.330。同时将本文最佳F1值与CGED2017和CGED2018竞赛冠军团队的最佳F1值进行比较,本文在Detection阶段比CGED2017冠军团队和CGED2018冠军团队分别高出0.012和0.008,在Position阶段比CGED2017冠军团队高出0.061,其余评估结果较接近两个冠军团队的最佳结果。本文比两个冠军团队使用更少的人工干预工作和更简单的模型训练方式,仍然能得到较好的结果,证明本文提出的模型有效。最后,本文搭建一个中文语病分析系统实现模型的落地,通过对系统的语病分析功能的测试表明本系统具有较好的实际应用价值。
其他文献
被征地农民程序性权利是征地过程中农民享有的保障其静态意义实体权利的动态权利。近年来,大量农村集体土地被征收征用,在被征地农民实体权利受到损害的情况下,其程序性权利
逆流色谱法是一种连续的不需要固体载体的液-液分配技术,能避免样品的不可逆吸附。pH区带精制逆流色谱是一种由普通逆流色谱发展而来的制备性色谱技术,它适用于离子型化合物
行人重识别的目标是在海量视频或图像中快速地查询目标行人,是计算机视觉领域中的热点研究问题,其在智能视频监控中有着重要的应用。近年来,研究人员提出了大量的行人重识别算法,尤其随着深度学习技术的不断发展,其性能也得到了不断提高。但是,行人的特征表达、样本的缺乏以及遮挡等问题,并未得到充分的解决。针对这些问题,本文的主要工作包括以下两方面内容:(1)针对传统网络对行人特征提取能力有限的问题,本文提出了使
随着全球变暖,极端气候越发频繁,造成了巨大的经济损失和社会影响,已引起各国政府的高度关注。探究极端气候的演变规律、变化成因和未来趋势成为当前研究的热点和难点。本文
农地征收作为一种基本的土地法律制度,在世界各国普遍存在。农地征收权是由相应征地主体实施,在我国,《土地管理法》规定农地征收审批主体、实施主体和补偿主体三者来实现农
自改革开放以来,随着我国大力发展经济和推进城市化水平,交通拥堵及环境污染问题日益严重,人们出行效率低下,从而阻碍城市和经济发展。为了讨论出行方式选择问题,本文以认知
近年来,基于纳米级厚度二维材料光电探测器的报道层出不穷。二维材料可以像堆乐高积木一样将任意两种能带不同的二维材料堆叠在一起形成异质结,有利于扩展光电探测器的探测范围。针对目前GaSe展现出的优异光电特性和存在的缺陷,我们系统研究了GaSe基异质结光电探测器。探索了利用机械剥离法制备二维材料,成功剥离出薄层二维GaSe和MoS_2薄片,并搭建了二维材料转移系统,实现了二维材料的转移和原位堆叠。为了研
本研究旨在了解农业技术投入密集型对家庭收入的影响,自然资源管理自然资源管理实践对家庭收入的影响,并提出如何通过农业技术和自然资源管理提高家庭收入的建议。研究者采用定量研究的方法从被调查者那里收集数据和原始数据。研究者以加蓬农民为研究对象,在自变量的影响下,观察加蓬农民的收入水平。问卷是收集数字、统计和原始数据的最合适的选择。数据分析采用描述性统计检验、回归检验、协整检验和均数序列相等性检验,估计过
人脸检测是人脸识别技术中的一个重要环节,在整个识别过程中起到了至关重要的作用。随着移动端市场的迅猛发展,如何开发出一种高效的人脸检测算法并在移动端应用已经成为了一个重要的研究热点。然而目前的人脸检测算法在移动端的应用存在检测精度不高、运行速度慢以及移植性较差等问题,阻碍了人脸识别技术在移动端的广泛应用。针对以上存在的问题,本文在Darknet-53网络的基础上提出了一种更高效的轻量级检测算法Fac
目的总结THA术后感染的二期翻修的经验和体会。方法 2012年3月-2016年3月共收治THA术后感染13例,其中急性感染1例,迟发型感染12例,男5例,女8例,年龄34-80岁,平均57岁,3例有窦