论文部分内容阅读
随着国家法制化建设的稳步推进,司法公开化的体制已经逐步形成,裁判文书作为司法诉讼结果的记录载体,已经在网络上全面依法公开。同时随着自然语言处理技术的发展,其与大数据的融合运用变得越来越普及。通过自然语言处理技术来处理裁判文书大数据,挖掘其中潜在的价值是本文的立题出发点。当用户有诉讼需求时,如果能够通过输入自身案情信息检索出相似案情的裁判文书,将会很大程度上帮助用户了解自身案情的责任范围,这种语义上相似案情裁判文书检索的应用。对促进国家法制化建设具有一定意义。本文在裁判文书大数据和自然语言处理技术的研究基础之上,首先设计了裁判文书的关键词抽取算法和文本相似度计算算法,算法旨在抽取裁判文书的关键词信息并用于计算裁判文书语义相似度大小,以这两个算法作为理论支撑,设计和实现了法务服务系统。系统以数据采集层抓取的裁判文书为数据基础,通过信息提取层和存储层来提取和存储裁判文书的关键信息,系统服务层充分发挥自然语言处理技术和大数据融合的优势,实现了向用户提供相似案情裁判文书语义检索等功能,系统各层协调工作,整个设计过程架构清晰,顺利通过功能测试和性能测试,达到了预期的设计目标。