基于异构数据联合训练的中文分词法

来源 :电子科技 | 被引量 : 0次 | 上传用户:blogbee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词技术作为中文信息处理中的关键基础技术之一,基于深度学习模型的中文分词法受到广泛关注。然而,深度学习模型需要大规模数据训练才能获得良好的性能,而当前中文分词语料数据相对缺乏且标准不一。文中提出了一种简单有效的异构数据处理方法,对不同语料数据加上两个人工设定的标识符,使用处理过的数据应用于双向长短期记忆网络结合条件随机场(Bi-LSTM-CRF)的中文分词模型的联合训练。实验结果表明,基于异构数据联合训练的Bi-LSTM-CRF模型比单一数据训练的模型具有更好的分词性能。
其他文献
利用1960—2012年5—6月NCEP/NCAR逐日再分析资料,基于冷涡经典定义,采取客观识别方法检索东北冷涡活动过程,根据东北冷涡活动时空变化特征给出东北冷涡持续活动过程标准,通过冷涡
深入探讨了建筑设计的三大误区,即盲目摹仿、缺少细部和外墙材料运用不尽人意,为了创造出更好的建筑,提出了不能盲目摹仿,要重视建筑细部的设计,要恰当地运用外墙材料的建议,指出味
阐述了笔架山三清阁的历史背景,从建筑结构到建筑风格分别介绍了该建筑的特色,同时研究了三清阁建筑结构与装饰艺术的价值,并指出对于三清阁的全面研究将为中国近现代古建筑
分析了大学生的行为特点,探讨了大学生公寓室内环境现状对学生行为模式的影响,指出学生公寓设计应以大学生的实际需求为出发点,在学生公寓设计之初应对大学生行为模式予以调查研
目的了解静脉留置针保留时间缩短的原因,探讨保护血管、减轻痛苦和降低成本的对策。方法对618例使用静脉留置针病例进行统计,分析留置针保留时间缩短的原因。结果留置保留不到3