【摘 要】
:
随着我国司法建设的不断完善,海量的裁判文书在网上大规模的公开,并且裁判文书中含有大量有价值的信息,对这些信息进行挖掘将具有较大的价值。在深度学习的背景下,文本分类作为自然语言处理领域中重要的基础任务之一,该研究基于裁判文书为数据基础进行裁判文书的文本分类实验。通过对裁判文书中案件类别多标签分类,可以为司法判案提供参考提高法官办案效率,为司法领域“同案同判”提供有价值的参考。一篇裁判文书包含的信息量
【基金项目】
:
国家重点研发计划项目“假释、暂予监外执行、刑释人员犯罪预防支撑技术与装备研究”中的子项目“研发假释、暂予监外执行、刑释人员犯罪预防平台并开展试点应用”(2018YFC0831106);
论文部分内容阅读
随着我国司法建设的不断完善,海量的裁判文书在网上大规模的公开,并且裁判文书中含有大量有价值的信息,对这些信息进行挖掘将具有较大的价值。在深度学习的背景下,文本分类作为自然语言处理领域中重要的基础任务之一,该研究基于裁判文书为数据基础进行裁判文书的文本分类实验。通过对裁判文书中案件类别多标签分类,可以为司法判案提供参考提高法官办案效率,为司法领域“同案同判”提供有价值的参考。一篇裁判文书包含的信息量很大,如何将裁判文书进行分类,方便司法人员查阅是一项具有重要意义的课题。本文针对裁判文书的分类问题,利用基于Bert模型的方法对裁判文书进行特征挖掘并分类。该方法主要是基于Bert预训练语言模型的多层特征融合进行编码,通过Bert-as-service工具对裁判文书中的文本信息进行向量表示,提取更深度的文本特征从而进行裁判文书的分类。通过实验数据,该模型在裁判文书案件类别多标签分类上的准确率为87.42%。此外,本文还利用了一种基于Bert-LSTM模型的方法对裁判文书进行更深层次的数据分析并分类。该方法利用预训练模型Bert提供词向量,通过Bert模型联系裁判文书的上下文语境对词向量进行微调,将融合全文语义信息的向量表示输入到LSTM模型中。利用自注意力机制给予文本中重要信息赋予更高的权重,利用LSTM对序列进行编码和特征融合,获取最终的类别信息。实验表明,Bert-LSTM模型性能有明显的提升,相对与基于Bert预训练模型的裁判文书分类,准确率提升了1.12%。
其他文献
油茶是一种可生产食用油料的茶树,其树根、叶片、茶籽以及茶壳都具有良好的生态经济效益。但是随着油茶种植面积的不断增加,各类侵害油茶树的病害也越来越多,其中油茶炭疽病是油茶产业普遍发生的一种破坏性极强的病害,而且目前也没有研制出有效的防治药剂,严重地影响了油茶产业的发展。因此及时准确地检测炭疽病,对油茶产业健康持续发展具有重大意义。本文提出了利用激光诱导击穿光谱(LIBS)技术,研究炭疽病油茶叶片中营
现今,随着无线通信技术的发展,从开始的1G到现在的5G出现,通信频段越来越细化的同时,对无线终端也提出了更高的要求。终端会向多功能、高性能、小型化等方向发展。然而对性能要求越高,其设备结构让电路会更加复杂,体积如何保持不变甚至进一步小型化成为难题,单凭射频前端的无源微波器件设计,无法满足现在的需求。滤波器和天线的一体化设计,能够使设计出的滤波天线不仅具有辐射、滤波、平衡变换等功能,还可以满足系统集
自然场景下的文本检测与识别技术已成为近年来一个非常热门的研究课题。一方面,作为自然场景中文本信息提取的基础,自然场景下的文本检测与识别方法具有很高的研究价值;另一方面,在包括图像搜索、即时翻译和机器人导航等领域内的诸多应用场景中,高性能的文本检测和识别系统也有着重要的现实意义。针对现有的文本检测和识别方法中的不足。本文的研究主要有两个方面:一是研究满足自然场景中多方向、不规则文本的检测算法。二是如
随着经济的增长,中国汽车保有量逐年递增,由此引发的道路安全事故也程增长趋势。疲劳驾驶和分心驾驶是引发交通事故中两个主要原因之一。研究驾驶员的驾驶状态,并适时进行预警,对于保证道路安全具有非常大的意义。基于机器学习的驾驶状态研究,主要是通过图像对驾驶员的脸部、头部或手部特征进行检测分析。其基于图像特征提取的驾驶监测技术与人的认知相似性,更因其非入侵式无接触性、强鲁棒性等特点,并可以与辅助驾驶设备/系
目前有关再犯罪改造领域的知识并没有被纳入管理,且在该领域的知识管理方面的研究极少,如何将犯罪心理领域知识纳入管理、形成一套完整的知识管理体系,准确预测罪犯或矫正对象的再犯罪几率,体现改造质量的优劣,从而制定一套合适的帮扶计划,提高再犯罪改造质量,变成了急需的问题。为此,本文基于领域专家经验以及对某监狱的调查问卷,结合本体技术、机器学习预测模型、模糊综合评估等技术,从再犯罪改造领域知识库的构建、再犯
"双碳"目标下,"数字新基建"、电动汽车充电桩、电能替代、综合能源服务等业务都蓄势待发。面对新的任务和新的使命,国网陕西省电力公司商洛供电公司(以下简称"商洛公司")积极适应碳达峰、碳中和目标带来的各种变革,守正创新、担当作为。商洛公司承接着战略落地和目标执行的重要任务,与支部力量共同结合,顺应新格局提出"党建+能效"服务,成立以党支部组织力量为主,支部书记为组长,支部委员为副组长,市场智能
随着人们对结构量运算需求逐渐增多,而电子计算机在这方面解决效率有限,迫使研究者们开始寻找其他解决方案,由于三值光学计算机现已成熟,除了具有光的高码元与高并行的特性之外还具有数据位数众多、处理器可重构的特点,所以当电子计算机解决问题较为复杂或难以解决时,人们希望可以结合三值光学计算机进行解决。高阶求导作为数学领域中的重要工具在微分学、量子力学、工程应用等领域都有广泛使用。而在电子计算机中,由于存在进
三维测量技术是一种广泛用于工业检测、文物保护、虚拟现实等领域的基础性技术,例如汽车质量检测、远程看房等。其中,结构光测量方法由于其精度较高、实现较易、无需接触被测物体表面,是目前进行三维测量方法的主流方法之一。目前,结构光测量系统的具体实现方法较为多样,但大多都是在测量环境较为理想的区域内进行的。随着结构光测量的应用逐渐从固定环境下的工业检测发展为如在不可控环境中的测量,测量环境、待测物体表面的光
区块链技术因为比特币的引入被人们广泛关注。随着近几年的发展,区块链技术的应用已不再局限于比特币等数字货币,更多传统行业与区块链结合的应用被开发出来,大量数字资产通过区块链进行管理导致区块链很容易遭受黑客攻击,安全问题阻碍了区块链的发展。共识协议是区块链的核心技术,目前已知的区块链系统受到的攻击大多针对于共识协议,只有保证共识协议的安全性才能使得区块链更加可靠从而被广泛应用。形式化方法是分析网络协议
图像情感分析具有重大的经济和社会价值,因此,它是机器视觉领域的热点问题。现有研究面临样本稀缺问题,且未充分利用多模态特征间蕴含的跨模态语义,也忽视了特征在决策时的互补性。为此,提出基于样本精选与来自转换器的双向编码器表示模型(Bidirectional Encoder Representation from Transformers,BERT)引导的图像情感分析模型,它包含样本精选、跨模态语义挖掘