【摘 要】
:
目前,裁判文书的书写愈加规范,且随着电子化裁判文书的普及,裁判文书已然成为司法领域研究的重要对象。本文基于孪生神经网络,并结合文本表示、词嵌入、预训练语言模型、文本特征提取等技术对裁判文书的相似性进行研究,为司法判案提供参考,以实现司法领域“同案同判”的需求。主要的工作如下:(1)针对裁判文书的领域性、措辞严谨性以及动态变化性提出了基于TinyBERT-CNN的裁判文书文本表示模型。其中基于Tin
【基金项目】
:
国家重点研发计划项目“假释、暂予监外执行、刑释人员犯罪预防支撑技术与装备研究”中的子项目“研发假释、暂予监外执行、刑释人员犯罪预防平台并开展试点应用”(2018YFC0831106);
论文部分内容阅读
目前,裁判文书的书写愈加规范,且随着电子化裁判文书的普及,裁判文书已然成为司法领域研究的重要对象。本文基于孪生神经网络,并结合文本表示、词嵌入、预训练语言模型、文本特征提取等技术对裁判文书的相似性进行研究,为司法判案提供参考,以实现司法领域“同案同判”的需求。主要的工作如下:(1)针对裁判文书的领域性、措辞严谨性以及动态变化性提出了基于TinyBERT-CNN的裁判文书文本表示模型。其中基于TinyBERT的词嵌入层解决了裁判文书语境影响词语含义的问题;基于CNN的特征提取层提炼了裁判文书语义信息,简化了文本表示结果,提高了后续任务处理效率。(2)基于本文任务的特点,提出了基于孪生神经网络的裁判文书相似性判断模型。该模型将两份裁判文书映射到同一个域,增强了待匹配裁判文书之间的联系,提高了匹配结果的准确性,并解决了直接计算文本相似度后,再进行相似性判断所带来的分类情况多、判断复杂的问题。(3)基于裁判文书文本表示模型,将孪生神经网络应用到特征提取层,利用CAIL2019提供的裁判文书数据进行实验。将ELMo、TinyBERT、GRU、Transformer和CNN分别应用到模型的不同层进行实验,得出基于TinyBERT的孪生卷积神经网络模型在裁判文书相似性判断方面效果较好;接着将基于TinyBERT的孪生神经网络模型与现有模型进行对比,验证了本文模型的有效性。
其他文献
随着经济的增长,中国汽车保有量逐年递增,由此引发的道路安全事故也程增长趋势。疲劳驾驶和分心驾驶是引发交通事故中两个主要原因之一。研究驾驶员的驾驶状态,并适时进行预警,对于保证道路安全具有非常大的意义。基于机器学习的驾驶状态研究,主要是通过图像对驾驶员的脸部、头部或手部特征进行检测分析。其基于图像特征提取的驾驶监测技术与人的认知相似性,更因其非入侵式无接触性、强鲁棒性等特点,并可以与辅助驾驶设备/系
目前有关再犯罪改造领域的知识并没有被纳入管理,且在该领域的知识管理方面的研究极少,如何将犯罪心理领域知识纳入管理、形成一套完整的知识管理体系,准确预测罪犯或矫正对象的再犯罪几率,体现改造质量的优劣,从而制定一套合适的帮扶计划,提高再犯罪改造质量,变成了急需的问题。为此,本文基于领域专家经验以及对某监狱的调查问卷,结合本体技术、机器学习预测模型、模糊综合评估等技术,从再犯罪改造领域知识库的构建、再犯
"双碳"目标下,"数字新基建"、电动汽车充电桩、电能替代、综合能源服务等业务都蓄势待发。面对新的任务和新的使命,国网陕西省电力公司商洛供电公司(以下简称"商洛公司")积极适应碳达峰、碳中和目标带来的各种变革,守正创新、担当作为。商洛公司承接着战略落地和目标执行的重要任务,与支部力量共同结合,顺应新格局提出"党建+能效"服务,成立以党支部组织力量为主,支部书记为组长,支部委员为副组长,市场智能
随着人们对结构量运算需求逐渐增多,而电子计算机在这方面解决效率有限,迫使研究者们开始寻找其他解决方案,由于三值光学计算机现已成熟,除了具有光的高码元与高并行的特性之外还具有数据位数众多、处理器可重构的特点,所以当电子计算机解决问题较为复杂或难以解决时,人们希望可以结合三值光学计算机进行解决。高阶求导作为数学领域中的重要工具在微分学、量子力学、工程应用等领域都有广泛使用。而在电子计算机中,由于存在进
三维测量技术是一种广泛用于工业检测、文物保护、虚拟现实等领域的基础性技术,例如汽车质量检测、远程看房等。其中,结构光测量方法由于其精度较高、实现较易、无需接触被测物体表面,是目前进行三维测量方法的主流方法之一。目前,结构光测量系统的具体实现方法较为多样,但大多都是在测量环境较为理想的区域内进行的。随着结构光测量的应用逐渐从固定环境下的工业检测发展为如在不可控环境中的测量,测量环境、待测物体表面的光
区块链技术因为比特币的引入被人们广泛关注。随着近几年的发展,区块链技术的应用已不再局限于比特币等数字货币,更多传统行业与区块链结合的应用被开发出来,大量数字资产通过区块链进行管理导致区块链很容易遭受黑客攻击,安全问题阻碍了区块链的发展。共识协议是区块链的核心技术,目前已知的区块链系统受到的攻击大多针对于共识协议,只有保证共识协议的安全性才能使得区块链更加可靠从而被广泛应用。形式化方法是分析网络协议
图像情感分析具有重大的经济和社会价值,因此,它是机器视觉领域的热点问题。现有研究面临样本稀缺问题,且未充分利用多模态特征间蕴含的跨模态语义,也忽视了特征在决策时的互补性。为此,提出基于样本精选与来自转换器的双向编码器表示模型(Bidirectional Encoder Representation from Transformers,BERT)引导的图像情感分析模型,它包含样本精选、跨模态语义挖掘
随着我国司法建设的不断完善,海量的裁判文书在网上大规模的公开,并且裁判文书中含有大量有价值的信息,对这些信息进行挖掘将具有较大的价值。在深度学习的背景下,文本分类作为自然语言处理领域中重要的基础任务之一,该研究基于裁判文书为数据基础进行裁判文书的文本分类实验。通过对裁判文书中案件类别多标签分类,可以为司法判案提供参考提高法官办案效率,为司法领域“同案同判”提供有价值的参考。一篇裁判文书包含的信息量
为了实现"碳达峰"、"碳中和"目标,煤炭产业亟需广泛而深刻的结构调整。宁夏深化煤炭体制改革,推动区域经济发展方式的转变,大力推进绿色矿山和煤矿智能化建设。针对煤炭产业的转型升级对专业技术人才的需求问题,基于宁夏煤炭行业发展现状,统计分析宁夏煤炭相关专业大学生就业状况,探讨了"双碳"目标下煤炭行业吸引高素质人才的有效途径。
量子秘密共享(QSS)是量子通信研究领域中一个重要分支,它的核心思想是将秘密信息拆分成若干个部分,并由若干参与者共同管理。任何一个参与者都不能单独恢复出原始的秘密信息,只有若干个参与者一起合作才能恢复秘密信息。在SQSS方案中,把半量子方案应用于量子秘密共享成为目前实际应用中的主流。此外,身份认证在量子通信协议的安全性上能够发挥巨大的作用。因此,本文主要对基于身份认证的半量子秘密共享协议(SQSS