医患纠纷类裁判文书多标签分类的研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:codemachine
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
医患纠纷类裁判文书作为宝贵的素材对解决医患矛盾有着重要借鉴作用,如能准确地将类似案例推荐给用户做参考,可以有效提升医患双方对责任和赔偿的认知,提高调解质量和效率。为了提高类案推荐的准确性和效率,在医患纠纷类案推荐过程中,可预先对案例库中的文书进行“科室”、“医疗过失行为类型”等关键类别的分类,然后基于这些分类标签快速精准地过滤与当前输入案例无关的历史案例,这不仅可以提高类案推荐的精度,而且减小了需要进行相似度计算的案例集合大小,从而降低了计算量,提高类案推荐的效率。“科室”与“医疗过失行为类型”属于医患纠纷类裁判文书中两种最重要的类别标签,从技术上看,二者的分类标注均属于多标签分类任务。在具体的研究过程中,主要面临如下两个问题:首先,裁判文书是一种特殊的长文本,主题繁多,与“科室”与“医疗过失行为类型”主题相关的内容篇幅在总文本中占比较低,且内容分散,使其文本特征表示向量高维且稀疏,若直接应用现有的特征选择方法对文本的原始特征空间进行降维,容易造成关键信息对应的特征项不突出甚至被忽略;其次,医患纠纷数据集中存在严重的类别(标签)分布不均衡现象,而大多分类器是通过最优化准确率训练得到,当训练样本类别存在严重倾斜时,分类器的分类结果会偏向于大类而忽略小类。因此,这种标签间类别不均衡分布现象也使得分类器的效果不理想。为了解决上述问题,本文根据不同的分类任务首先对原文进行关键信息抽取生成内容概要,对与具体分类任务无关的内容进行有效过滤;然后采用重采样与集成学习相结合的方式基于内容概要进行多标签分类,以解决多标签类别不均衡问题,改善多标签分类的效果。具体研究工作包括以下几个方面:(1)基于词粒度的内容概要生成。通过对大量的医患纠纷案例进行特征分析,发现在“科室”分类任务中,表意完整单一、所指明确的关键性名词短语就具有很好的类别区分能力,因此对于该任务,本文采取基于词粒度进行文本抽取而生成内容概要(关键词抽取任务)。由于目前主流的序列标注模型BiLSTM-CRF应用于中文字符级序列标注中存在缺乏字符语义信息的问题,因此本文在该模型的基础上提出了改进的BiLSTM-CRF模型,由该模型识别出与“科室”分类任务相关的关键词生成内容概要。实验证明改进的BiLSTM-CRF模型能在一定程度上提升关键词识别的性能,从词粒度上筛选出了有效信息,提高了所生成的内容概要的质量。(2)基于句粒度的内容概要生成。对于“医疗过失行为类型”分类任务,单一名词无法完整地表达出过失行为,因此在该任务中,本文则面向具有更好类别区分能力的关键句进行抽取,即基于句粒度进行文本抽取生成内容概要。针对句粒度的文本抽取问题(抽取式摘要生成任务),现有的抽取式摘要多是采用encoder-decoder模型以及考虑了文本冗余性,导致在本任务应用时效果不佳,因此本文提出了基于注意力机制的分层B iLSTM模型来完成句子抽取而生成内容概要。实验证明该模型减少了关键句的漏判、错判,提高了所生成的内容概要的质量。(3)基于内容概要的多标签分类。针对多标签分类中所存在的类别不均衡问题,本文提出了一种改进的综合采样法(RCS),并将其与Bagging算法相结合,提出了集成多标签分类算法RCS-Bagging。该算法采用RCS采样法对内容概要进行重采样生成多个不同的采样集,接着基于每个采样集训练出一个多标签分类器,最后采用一定的策略对这些基分类器进行结合,以减小类别不均衡对多标签分类效果带来的影响,提升多标签分类效果。实验证明在“科室”与“医疗过失行为类型”多标签分类任务中,采用一票决定作为基分类器结合策略的RCS-Bagging算法有效提高了召回率和f1值,且汉明损失最小,因此证明了本文提出的医患纠纷类裁判文书多标签分类解决方案的可行性和有效性。
其他文献
随着海洋油气开采事业的迅速发展,海洋平台的安全性日益受到人们的关注。与欧美等海洋强国相比,我国的海洋平台设计建造还存在差距,特别是在支持平台的人员应急疏散控制技术
本学位论文主要研究稀薄气体动理学理论的数学理论.本文所研究的VlasovPoisson-Boltzmann系统所描述的是一种带电粒子在自洽场中相互作用的物理模型.其中主要结果包括在扰动
本文利用x射线衍射仪(XRD)、配有能谱仪(EDS)的场发射扫描电镜(FSEM)、配有三维分析软件(FEI,Avizo Fire 7)的自动连续切片机(UES Inc.,Robo-Met.3D)等分析测试手段对Al-15%Mg2Si合金中
这篇文章分为两部分,第一部分研究Blow-up复流形的Morse-Novikov上同调,第二部分研究CR结构的形变。对于一个复流形X,沿着一个闭子流形Z blow-up得到流形(?)。我们将探讨(?)
钢-混凝土组合梁结构比普通钢筋混凝土结构具有更高的强度、刚度和延性,能更好的抵抗地震作用。钢梁与混凝土之间不可避免的存在界面滑移,相对滑移的存在将使组合梁的变形增
土壤盐渍化是一个全球性的资源和生态问题,已成为限制我国农业生产的主要因素之一。盐胁迫会影响几乎植物所有的重要生理过程,而光合作用是植物生长发育的基础,它为植物的生
西南喀斯特地区人多地少,水土流失严重,较为恶劣的自然环境制约着当地社会经济的发展。在建设生态文明社会的过程中,对水土流失发展趋势进行科学预测至关重要。本文以喀斯特
本论文主要研究关于Vlasov-Poisson-Boltzmann方程的Acoustic-Poisson极限的数学理论,Boltzmann方程已经熟为人知,它是Kinetic理论中最基础最经典的一个模型,具有丰富的物理
钢-混凝土组合梁通过剪力连接件将钢和混凝土两种材料的构件连接在一起,充分利用了钢材抗拉强度高、塑性好的优点以及混凝土材料抗压性能好且经济的优点。栓钉作为钢-混凝土
型钢混凝土组合结构因其受力合理以及抗震性能优越使得其越来越多的应用于高层建筑中。课题组为了响应国家“住宅产业化”的政策,提出一种新型装配式中空型钢混凝土柱-钢梁框