【摘 要】
:
中医药学文本中涵盖大量具有医学价值的信息,准确快速的抽取文本中重要数据信息,可以为临床诊疗、患者自诊等提供数据支持,进而为中医药规范诊疗提升诊疗水平奠定基础。命名实体识别作为一种实体信息抽取技术,可实现对大量存储于文本中非结构化的数据结构化转换,对于目标对象的实体数据信息的抽取及知识图谱的构建都具有重要作用。而在中医药领域的命名实体识别任务中已标注数据缺少、文本数据特征不能被充分利用是命名实体识别
论文部分内容阅读
中医药学文本中涵盖大量具有医学价值的信息,准确快速的抽取文本中重要数据信息,可以为临床诊疗、患者自诊等提供数据支持,进而为中医药规范诊疗提升诊疗水平奠定基础。命名实体识别作为一种实体信息抽取技术,可实现对大量存储于文本中非结构化的数据结构化转换,对于目标对象的实体数据信息的抽取及知识图谱的构建都具有重要作用。而在中医药领域的命名实体识别任务中已标注数据缺少、文本数据特征不能被充分利用是命名实体识别精度不高的重要原因。针对此类问题,本文采用深度学习的方法对中医药命名实体识别进行研究,主要研究内容如下:(1)提出一种基于改进的生成对抗网络数据增强算法。传统数据增强算法以SeqGAN为核心,而以LSTM为生成器的SeqGAN存在限制算法并行化、训练速度慢的问题。为此,本文以Transformer模型来替换LSTM模型以抛弃原有的循环结构,允许算法更多并行化的同时增强数据之间的联系,进而提升生成数据的质量。其次,传统的数据增强命名实体识别方法中的Lattice LSTM模型,缺乏对词汇信息的有效利用及中文汉字特征的捕获能力。为此,本文以MECT模型来替换Lattice LSTM模型,通过结合多种特征来提升命名实体识别精度。本文采用的是中药说明书数据集,经实验对比发现,该算法能进一步提升中医药命名实体识别精度。(2)提出一种基于改进Transformer的SFM中医药命名实体识别框架。SFM即SeqGAN*-FastBERT-MECT,将改进后的SeqGAN得到的生成数据与原有的真实数据一同通过FastBERT预训练模型来提取相应的特征向量,再由MECT模型对序列化数据的词汇信息特征及汉字特征进行获取,最后通过CRF来完成序列解码标注,识别相应的实体。而SeqGAN*、FastBERT及MECT都含有Transformer模型,为进一步优化SFM中医药命名实体识别框架,本文在Transformer中引入残差式注意力机制,以提升模型整体性能。实验结果表明,该方法对中医药命名实体识别精度的提高具有一定的作用。
其他文献
在新一轮教育改革不断深入的时代背景下,核心素养这一教学理念得到前所未有的关注和重视,深度学习也成一个热门讨论话题.在高中教育阶段的物理教学中,教师需在物理学科核心素养培育下,带领学生展开深度学习,目的是推动他们获得更为全面的发展.
小学综合实践活动课是教导学生接触社会生活和自然环境的一门实践性课程,通过教师的指导和自己的亲身体验实践,小学生会在综合实践活动课中学习为人处世的方法和日常生活的常识,进一步提升自我的人际交往能力和生存的技能。德育是教学的目的和灵魂,德育需要与平常的教学活动紧密结合,教学才能最大程度地发挥促进小学生全面发展的作用。综合实践活动课能够维系人与人之间的良好交往关系,并促进师生之间的和谐交流。在小学综合实
为推广和探索船舶行业标准化创新工作模式,对船舶行业标准化工作模式创新的必要性进行分析,并介绍国家技术标准创新基地(船舶与海洋工程装备)的特点。从标准化合作模式创新、标准化服务能力建设、科技成果标准转化机制探索和国际标准化支撑能力建设等4个方面对基于创新基地平台的船舶行业标准化工作模式创新探索措施进行阐述,并总结实践成效。研究成果可为船舶行业标准化创新工作提供一定参考。
在深度学习的背景下,高中物理教学摒弃了传统的单篇教学模式,加入了全新的单元整体教学模式,意味着物理教学更加强调单元的整合教学,注重学生的物理自主实践。而运用单元整体综合教学法能促进物理课堂的有效构建,有效地落实单元任务,促进学生物理核心素养的发展。而当前高中物理教学中单元整体教育的模式还存在一定的运用问题,基于此,本文从当前高中物理单元整体教学中存在的问题入手,给出相关教学策略,希望能对广大教育者
在当前初中教育教学中,德育已经成为重要的内容。将优秀传统文化融合在初中德育内容中,能促使教育效果有效提升,同时能让学生树立弘扬中国优秀传统文化的意识。本文对中华优秀传统文化融入初中德育课教学进行分析,首先讲述了其必要性,然后进行了具体的教学实践探究。希望通过理论的研究,可以给实际的教学工作带来些许帮助。