【摘 要】
:
目的:命名实体识别在自然语言处理中是最基本的任务之一,本文通过应用深度表示的方法实现临床上的现病史数据的自动标识。方法:本文随机选取了10 426条现病史句子作为主要的
【机 构】
:
北京交通大学计算机与信息技术学院,湖北省中医院,中国中医科学院广安门医院
【基金项目】
:
国家中医药管理局2015年度国家中医临床研究基地业务建设第二批科研专项(JDZX2015171):肝病回顾性病例表型信息抽取方法与分析研究,负责人:周雪忠;国家科技部国家重点研发计划项目(2017YFC1703506):中医药大数据挖掘研究与创新应用,负责人:于剑
论文部分内容阅读
目的:命名实体识别在自然语言处理中是最基本的任务之一,本文通过应用深度表示的方法实现临床上的现病史数据的自动标识。方法:本文随机选取了10 426条现病史句子作为主要的文本研究对象,分别用词嵌入(word2vec)和网络结构特征(node2vec)两种构建向量的方法生成不同的词向量特征,再在基于条件随机场(Conditional Random Field,CRF)和结构化支持向量机(Structured Support Vector Machines,SSVM)的方法上进行十重交叉验证,计算并比较基于深度表示的症状表型命名实体抽取的性能。结果:传统的CRF算法的三个评价指标(准确率,召回率,F值)为(0.888 9,0.786 9,0.834 8);基于WENER方法下的CRF和SSVM的评价指标为(0.975 0,0.984 9,0.979 8)和(0.992 8,0.988 9,0.990 8);在GENER方法下基于词的CRF和SSVM算法的三个评价指标为(0.972 8,0.976 8,0.975 2)和(0.983 3,0.974 5,0.978 8);GENER方法下基于字的CRF和SSVM算法的评价指标为(0.927 8,0.862 8,0.887 9)和(0.943 7,0.946 8,0.941 3)。结论:深度表示的命名实体抽取算法性能要比传统的非深度表示的命名实体标识算法性能好。另外,通过比较深度表示的两种算法的性能后发现,无论是基于word2vec生成的词向量还是基于node2vec生成的词向量,SSVM模型算法性能均优于CRF算法的性能。
其他文献
【关键词】基本活动经验 “四基” 教学观 【中图分类号】G 【文献标识码】A 【文章编号】0450-9889(2013)08A- 0020-02 2011年版的数学课程标准把原来的“双基”教育目标扩展到“四基”教育目标,其中提出了“基本活动经验”的概念。这一概念丰富了数学教学的内涵,力求改变以往只注重基础知识和基本技能的教学观,为学生获得可持续发展提供了思路。 一、“基本活动经验”的内涵
选用MC9S12XS128为主控芯片,采用三方位大功率红外检测、舵机控制动力、PWM速度控制等技术,设计一款智能迷宫小车,包括小车的机械结构装配、电路控制、软件编程、控制算法及
掌握数学概念是开展数学思维的基础,学好数学概念才能正确进行判断、分析、推理、运算,有效解决数学问题。数学概念比较抽象,表达语言高度精练。在当前的初中数学教学中,还有很多
新课标强调,学生口语交际能力的培养要在双向互动的语言实践中进行;要利用语文教学的各个环节有意识地培养学生的听说能力;要在课内外创设多种多样的交际情境,让每个学生无拘
近年来,随着医学教育的进一步发展和医疗环境的变化,再加上妇产本身的特殊性,致使其在临床教学实践中多面临的挑战非常大。医学模拟教育结合标准化患者作为一种新型教学方法,
慢性阻塞性肺疾病(COPD)是一种临床上较为常见的慢性呼吸系统疾病,由于其较难治愈及对患者生活工作产生影响较大,故目前的治疗目的在于缓解患者的症状[1]。而对于急性发作期