论文部分内容阅读
医患纠纷类裁判文书作为宝贵的素材对解决医患矛盾有着重要借鉴作用,如能准确地将类似案例推荐给用户做参考,可以有效提升医患双方对责任和赔偿的认知,提高调解质量和效率。为了提高类案推荐的准确性和效率,在医患纠纷类案推荐过程中,可预先对案例库中的文书进行“科室”、“医疗过失行为类型”等关键类别的分类,然后基于这些分类标签快速精准地过滤与当前输入案例无关的历史案例,这不仅可以提高类案推荐的精度,而且减小了需要进行相似度计算的案例集合大小,从而降低了计算量,提高类案推荐的效率。“科室”与“医疗过失行为类型”属于医患纠纷类裁判文书中两种最重要的类别标签,从技术上看,二者的分类标注均属于多标签分类任务。在具体的研究过程中,主要面临如下两个问题:首先,裁判文书是一种特殊的长文本,主题繁多,与“科室”与“医疗过失行为类型”主题相关的内容篇幅在总文本中占比较低,且内容分散,使其文本特征表示向量高维且稀疏,若直接应用现有的特征选择方法对文本的原始特征空间进行降维,容易造成关键信息对应的特征项不突出甚至被忽略;其次,医患纠纷数据集中存在严重的类别(标签)分布不均衡现象,而大多分类器是通过最优化准确率训练得到,当训练样本类别存在严重倾斜时,分类器的分类结果会偏向于大类而忽略小类。因此,这种标签间类别不均衡分布现象也使得分类器的效果不理想。为了解决上述问题,本文根据不同的分类任务首先对原文进行关键信息抽取生成内容概要,对与具体分类任务无关的内容进行有效过滤;然后采用重采样与集成学习相结合的方式基于内容概要进行多标签分类,以解决多标签类别不均衡问题,改善多标签分类的效果。具体研究工作包括以下几个方面:(1)基于词粒度的内容概要生成。通过对大量的医患纠纷案例进行特征分析,发现在“科室”分类任务中,表意完整单一、所指明确的关键性名词短语就具有很好的类别区分能力,因此对于该任务,本文采取基于词粒度进行文本抽取而生成内容概要(关键词抽取任务)。由于目前主流的序列标注模型BiLSTM-CRF应用于中文字符级序列标注中存在缺乏字符语义信息的问题,因此本文在该模型的基础上提出了改进的BiLSTM-CRF模型,由该模型识别出与“科室”分类任务相关的关键词生成内容概要。实验证明改进的BiLSTM-CRF模型能在一定程度上提升关键词识别的性能,从词粒度上筛选出了有效信息,提高了所生成的内容概要的质量。(2)基于句粒度的内容概要生成。对于“医疗过失行为类型”分类任务,单一名词无法完整地表达出过失行为,因此在该任务中,本文则面向具有更好类别区分能力的关键句进行抽取,即基于句粒度进行文本抽取生成内容概要。针对句粒度的文本抽取问题(抽取式摘要生成任务),现有的抽取式摘要多是采用encoder-decoder模型以及考虑了文本冗余性,导致在本任务应用时效果不佳,因此本文提出了基于注意力机制的分层B iLSTM模型来完成句子抽取而生成内容概要。实验证明该模型减少了关键句的漏判、错判,提高了所生成的内容概要的质量。(3)基于内容概要的多标签分类。针对多标签分类中所存在的类别不均衡问题,本文提出了一种改进的综合采样法(RCS),并将其与Bagging算法相结合,提出了集成多标签分类算法RCS-Bagging。该算法采用RCS采样法对内容概要进行重采样生成多个不同的采样集,接着基于每个采样集训练出一个多标签分类器,最后采用一定的策略对这些基分类器进行结合,以减小类别不均衡对多标签分类效果带来的影响,提升多标签分类效果。实验证明在“科室”与“医疗过失行为类型”多标签分类任务中,采用一票决定作为基分类器结合策略的RCS-Bagging算法有效提高了召回率和f1值,且汉明损失最小,因此证明了本文提出的医患纠纷类裁判文书多标签分类解决方案的可行性和有效性。