基于噪音训练数据的中文命名实体识别研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:lbxs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前基于有监督方法的命名实体识别技术都需要大规模的标注语料。然而在很多新领域中命名实体定义模糊,标注语料匮乏,而且构建高质量的人工标注数据费时费力。本文任务是中文命名实体识别,首先在多个新领域中定义了实体类别和标注规范,接着采用多种低代价方法快速获取标注数据,这些数据通常都包含错误标注,最后研究如何使用噪音标注数据构建高性能的中文命名实体识别系统。本文的主要工作如下:(1)多领域数据标注和标注方法研究首先,我们在电子商务、对话和新闻领域中定义实体类别和基本标注流程。然后采用众包标注和远程监督标注方法快速构建了六份标注语料。最后,我们实现了基于条件随机场和基于深度学习方法的实体识别基准模型并在这些语料上进行实验。数据质量分析和实验结果表明,众包标注结果中的标注不一致问题对两个基准模型有不同程度的影响,其中神经网络模型具有更强的鲁棒性。而远程监督标注过程会导致不完全标注和错误标注问题,严重影响了识别性能。对此,我们应该探索有针对性的数据使用方法。(2)基于众包数据的实体识别方法基于包含噪音的众包标注数据,我们提出了一种新的中文命名实体识别方法。受到对抗学习思想的启发,我们使用了两个长短期记忆网络结构来分别学习通用标注信息和独立标注信息。标注员之间的通用标注信息是容易被大众接受和认可的命名实体知识,能够有效防止模型在训练过程中偏向于噪音标注结果。最终,我们在Bi-LSTM-CRF基准模型的基础上构建了基于众包标注数据的实体识别模型。实验结果表明,我们的新方法相比于基准模型可以获得更高的识别性能。(3)基于远程监督数据的实体识别方法我们提出了一种使用远程监督训练数据的新方法,可以在一定程度上缓解远程监督标注结果中的两类噪音问题。针对不完全标注问题,我们采用局部标注学习方法来减少句子中未确定标签的字符所带来的影响;对于错误标注结果,我们基于强化学习策略设计了一个样例选择器,用于从自动化标注的结果中挑选高质量样例作为训练数据。在远程监督数据集上的多组对比实验结果表明,本文所提实体识别模型的性能优于其它所有对比模型,能够有效减小数据中的噪音影响。总之,本文研究了标注语料的快速构建方法和噪音数据使用方法,取得了一些初步的成果。我们希望这些研究成果能够为命名实体识别以及自然语言处理领域中其它任务的发展提供帮助。
其他文献
近年类,在开发新的水下自主航行器的背景下,鱼类在流体介质中的运动行为已收到广泛的关注。这些研究通常简化仿生推进的问题,研究孤立的震动表面在流体中的推进性能,并已取得
本文主要针对两类具有非线性信号产生机制的趋化模型进行了研究。首先,对下面这类具有非线性化学信号间接产生机制的趋化模型的齐次Neumann初边值问题进行研究:其中Ω(?)Rn(n
人工介质是一种新型复合介质结构或材料。常见人工介质有超材料、光子晶体、人工等离激元结构等。这类材料的性质可以通过人工设计调节,从而具有自然材料所不具备的功能,产生了许多新奇的性质:异常折射、超透镜和电磁隐身等。这在通信、成像和军事等领域有着广泛的应用。电磁单方向传输是指电磁波只沿特定的一个方向传输,在相反方向完全抑制传输,具有抗背向散射的特性。本论文基于多层结构的人工介质,研究了电磁单向传输的性质
群智能算法作为元启发式算法的一个分支,近年来受到学者的广泛关注,在理论和应用等方面取得了很多研究成果,特别是群智能优化算法与人工神经网络相结合,形成的混合神经网络模
根据腔量子电动力学,我们知道当使用由类似于光波大小的介质形成的微小腔结构时,可以改变原始光场分布。从而实现物质与光场之间相互作用的调节。克尔非线性效应在量子信息处
脂肪醇常指C6-C22的直链且只含有一个醇羟基的精细化学品,被当作表面活性剂广泛应用于日用、食品、农业等领域。脂肪醇分为两大类:合成和天然脂肪醇。合成醇的原料石油,属于
猪链球菌(Strepptococcussuis,S suis)是猪链球菌病主要病原菌,能够引起猪的脑膜炎、肺炎、败血症、多发性关节炎和皮肤化脓性感染,造成了世界养猪业的经济出现严重的损失,也是一种重要的人畜共患病原菌,对人畜公共卫生安全造成了严重的威胁,且如何进行该病的防控受到了越来越多人员的关注。本研究针对2017~2018年从安徽地区屠宰场表观健康猪只中采集的病料(肺脏)中分离得到的猪链球菌的
事件时序关系识别是对具有时序关联的事件对进行识别,并对它们之间的时序关系进行分类的一项任务。它对任何试图深入理解自然语言的系统来说都至关重要,如自动问答、信息抽取
资产证券化作为20世纪60年代末的金融创新工具,最早起源于美国,目前已成为欧美国家和地区最重要的融资工具之一。中国早在2005年试点资产证券化工作,其间受金融危机的影响一
近年来,为了通过加快发展都市近郊的乡村旅游项目来提高农村发展水平,各种农业和旅游业融合发展的活动相继展开,但这些项目在发展过程中出现了同质化的现象,千篇一律,缺乏吸