基于BERT和CNN的产科电子病历短文本分类算法研究

来源 :暨南大学 | 被引量 : 0次 | 上传用户:loveag
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
产科电子病历作为医生全面了解孕妇和胎儿情况的主要渠道,对于提高人口的生育健康水平有着重要意义。结构化处理方案是一种对电子病历中非结构化文本进行信息挖掘的重要手段,提升了医护人员的工作效率与信息的利用程度。文本分类作为结构化功能中的关键模块,对最终结构化效果起着至关重要的作用。深度学习技术的快速发展为文本分类任务的解决带来更多可能性,研究如何将新技术与现有解决方案相结合,进一步提高现有方案的准确率,具有很高实用价值。本文使用产科电子病历中分娩记录单文本数据集,提出一种针对分娩记录单中的六个类别的短文本(句子级别)分类算法,该算法针对于以下三个方面做出改进:(1)使用BERT预训练语言模型对句子进行特征向量化表示,避免了传统中文词向量严重依赖分词算法的问题,并且提升了特征向量表示文本上下文的能力;(2)在病历文本预处理阶段,针对于产科病历文本中出现文本书写不规范、句子边界难以分割的问题,本文将基于Bi-LSTMCRF的序列标注方法应用到分句任务中,增强了数据预处理阶段的句子切分能力;(3)使用包含多层卷积的卷积神经网络作为模型的分类器,增强了模型提取上层特征的能力。实验结果表明,本文提出的基于BERT+CNN网络模型在产科电子病历文本分类任务的F1值达到94%,高出基准模型Text CNN 6%左右,并且在较少的数据集上F1差值能达到10%左右;句子切分算法的F1值达到了80%左右,使用Bi-LSTM+CRF具有更好效果。本文使用近些年自然语言处理领域最热门技术对传统文本分类进行了改进,为结构化提供了更多解决方案选择,并且为此后相关研究提供了借鉴和参考。
其他文献
地震波在传播过程中因受地层吸收作用影响出现了能量衰减和速度频散,使得地震记录振幅主频降低,相位发生畸变,子波相位并不满足零相位、最小相位等假设。目前,子波相位难以准
目的:基于“肺与大肠相表里”理论,运用通腑法观察清肺通腑汤辅助治疗老年痰热壅肺型慢性阻塞性肺疾病急性加重期(AECOPD)伴便秘的临床效果,为治疗该类疾病提供临床思路及借鉴。方法:选取2017年9月至2019年5月江西中医药大学附属医院肺病科和胸外科收治的痰热壅肺型老年AECOPD伴便秘患者96例,按照随机数字表法将患者分为两组,每组48例,基本资料研究经统计学分析,差异无统计学意义,具有可比性。
许多数学学者在最近几年针对连通图的谱进行了大量的刻画.在已有的研究结论基础上,这篇文章主要研究了距离矩阵的最小特征值在(-2-(?),-2]中的所有三圈图,以及刻画了邻接矩阵仅有三个非负特征值的部分图.设G是一个点集为V(G)={v1,v2,...,vn}的简单无向图.D(G)=(dij)n×n是图G的距离矩阵,其中dij是vi到vj的距离,这里D(G)的最小特征值称为图G的最小距离特征值.A(G
聚合物材料具有易于合成、结构可控、便于加工等优点,为了在杂化材料中引入聚合物的优点,可以使聚合物材料与无机材料进行结合形成聚合物/无机纳米杂化材料,这样既结合了无机
随着生物柴油产业的发展,有大量的甘油作为副产物生成,为了保持甘油原有市场的平衡,如何将甘油转化为高附加值的产品,实现资源的高效利用成为了人们研究的重点。利用甘油和CO
牦牛低海拔舍饲是缓解藏区草畜矛盾的重要手段,同时也可有效解决牦牛在冷季生长发育迟缓的难题,促进肌内脂肪沉积,提高牦牛肉品质。本研究选用10头36月龄体重、体况相近的健
增材制造技术是《中国制造2025》中指出的五大核心技术之一。对于大尺寸FDM模型,由于模型接触面的面积大,打印路径长,导致在模型打印进程中的相变过程会有不均匀的温度梯度和残余应力分布,使得打印模型翘曲变形。打印模型的翘曲变形轻则会影响打印模型质量,降低打印效率,重则会导致打印模型脱离工作阀台,使得打印失败,造成大量耗材浪费。为了解决大尺寸模型接触面翘曲问题,本文进行了以下三个方面的研究:(1)分析
地震勘探领域的不断扩大、勘探地区复杂多变的地质环境、废炮废道的剔除以及各种人为因素,导致地震勘探实际采集到的数据往往是不完整的。不完整的地震数据会导致成像假频和
习近平总书记曾说过:“历史文化是城市的灵魂。”而非物质文化遗产则是一个国家和民族历史文化成就的重要标志。早在十年前的2009年6月份,张家界市委市政府就明确提出了:“全面搜集,深入研究,系统整理张家界历史文化,打造有张家界特色的文化品牌”。(1)张家界地处武陵山脉腹地,传统武术文化丰富多彩。研究传统武术文化不仅有利于提升张家界本土民族文化特色,提高经济效益,更能为中华武术添上浓墨重彩的一笔。本文通
菊花(Chrysanthemum morifolium)是我国十大传统名花之一,是有较高的观赏和经济价值。菊花的自然花期大都集中在秋季,受光周期的影响较大,且花期较集中,不能满足市场的周年均