【摘 要】
:
当前英文命名实体识别的研究已经非常成熟,而由于中英文的差异性和司法领域缺少公开标注数据集,中文司法领域的人工智能发展进程较为缓慢。本文的研究是基于对司法领域裁判文书的内容和行文特点进行分析,并结合自身对中文命名实体识别的了解来展开。主要研究工作如下:1、针对司法领域缺乏公开标注数据集的问题,人工制作了能够应用于司法领域命名实体识别的标注数据集。本文应用相关互联网技术,从中国裁判文书网(http:/
论文部分内容阅读
当前英文命名实体识别的研究已经非常成熟,而由于中英文的差异性和司法领域缺少公开标注数据集,中文司法领域的人工智能发展进程较为缓慢。本文的研究是基于对司法领域裁判文书的内容和行文特点进行分析,并结合自身对中文命名实体识别的了解来展开。主要研究工作如下:1、针对司法领域缺乏公开标注数据集的问题,人工制作了能够应用于司法领域命名实体识别的标注数据集。本文应用相关互联网技术,从中国裁判文书网(http://wenshu.court.gov.cn/)和中国“法研杯”司法人工智能挑战赛获取到各类案件裁判文书数据,经过一系列处理和标注形成了用于本研究的有效标注语料集。2、针对单独使用字符向量导致丢失部分句子内部信息的问题,本文提出使用句子的分布式表达模型训练获得句向量,再将出现在句子中的字符对应的向量与该句子向量进行加和并进行归一化处理,得到最终的输入向量。然后将得到的融合向量作为字符级Bi LSTM-CRF模型的输入,在本文中所构建的司法领域标注语料基础上进行实验。实验结果在总体上达到了77.08%的准确率、73.69%的召回率和75.35%的F1值,证明了本文方法的有效性。3、从实际应用出发,为提升命名实体识别系统的效率,提出改进的维特比算法。在求解“维特比路径”时,每一次计算后将得分最低的“不可能路径”进行裁剪,以减少计算量,从而提升模型的效率。实验证明,该方法对于模型运行速度的提升具有一定的效果。4、由于少数民族人名的特殊性,翻译为汉语时,在姓名的构造和长度上与常规的汉语人名均有区别,在识别时不能准确地识别出这一类人名。本文采用了融合注意力机制的命名实体识别模型,避免了LSTM在时间步长过大时可能会出现的长期依赖问题,并利用IDCNN对文本字符进行局部特征提取与Bi LSTM的所学习到的上下文特征进行融合,从而加强利用文本信息,提升了对少数民族翻译人名的识别能力。上述工作对于中文司法领域命名实体识别提供了新的研究思路,在各项评估指标上也有所提升,有助于推动中文司法领域命名实体识别的研究,提升实用性。
其他文献
随着我国经济高速发展和居民收入水平提高,我国家庭参与金融市场以实现财富保值增值的愿望越来越强烈,然而“有限参与”和“异质性”问题始终是我国家庭金融资产配置行为中长期存在的问题。针对该问题,国内许多文献从家庭的人口统计特征、经济环境和其他社会因素等角度考察了家庭金融资产配置的影响因素。为了更好地分析家庭金融决策问题,本文基于CHFS2017调查数据从健康风险的视角研究其对家庭金融资产配置的影响和有关
新闻出版业是文化产业的核心组成部分,对于文化产业的发展至关重要。改革开放以来,在国家经济快速增长和政府政策的大力扶持下,我国新闻出版业取得突飞猛进的发展,对国民经济各方面的影响和贡献日渐凸显。新闻出版业已经成为我国文化产业的重要支撑点和国民经济新的增长点,对于提升我国文化软实力和综合国力有着不容忽视的基础性、战略性作用。因此,对新闻出版业的经济影响展开系统研究就显得尤为必要。本文利用投入产出技术从
研发投入是创建企业核心竞争力的一个关键因素,但研发过程往往充满了不确定性,也因为其较长的投资回收期和较高的失败率成了管理者决策中的一个缓冲区,一旦受到外界给予的短
盐酸苯达莫司汀是一种氮芥类抗肿瘤药。最早于20世纪60年代初在德国合成,后于2003年10月首次在德国上市销售。它是一个独特的细胞毒药物,兼具烷化剂和嘌呤类似物。临床用于治疗惰性B细胞非霍奇金淋巴瘤(Ⅱ~Ⅳ期),白血病(慢性淋巴细胞性)、乳腺癌、浆细胞瘤、多发性骨髓瘤。2008年3月,美国FDA批准了 Cephalon公司生产研制的盐酸苯达莫司汀用于慢性淋巴细胞白血病的治疗。目前在国内,盐酸苯达莫
制造业在促进国民经济增长过程中扮演着重要角色,《中国制造2025》指出,我国到2025年需完成由制造大国向制造强国的转变。然而,普遍存在的盈余管理问题严重影响了制造业企业对外披露盈余信息的可靠性,误导信息使用者做出错误的决策,阻碍制造业正常发展。盈余管理既可以通过对会计政策、估计与方法等进行选择,也可以构建一些真实交易活动来实现。不同的盈余管理具有不同的特点,管理层可以根据自身公司的整体情况进行选
镧系掺杂的上转换传感器件具有发光信号的发射峰尖锐、自荧光背景信号低、发光衰减时间长、抗光漂白和光闪烁能力强,以及能够将两个或多个光子合并成更高能量的光子等独特的光学特性,近年来引起了人们的广泛关注。然而单纯的上转换传感器件应用范围有限,仅能对光信号进行调节。为了突破这种限制,人们开始对上转换传感器件的多功能化进行研究。上转换传感器件的多功能化使得上转换传感器件除了能调节光信号之外,还能调节其他物理
智能交通是近些年的关注热点,智能交通领域中的无人驾驶和辅助驾驶方便了人们的出行,同时减少了因为司机疲倦、道路拥挤等原因引起的交通事故。车道线检测技术和车辆偏离预警技术是其至关重要的两项技术。这两项技术可以实时地检测与识别车道线,并判断车辆自身所在车道的具体位置,最后反馈到终端,提醒车辆在安全范围内行驶。因此,准确、实时地检测车道线和车辆偏离预警系统在实际应用中的研究具有十分重要的意义。为了提高车道
随着新时期军事斗争的发展,面对日益复杂的干扰环境、杂波环境和目标环境,基于传统雷达技术研制的雷达系统无法满足更高要求的作战需求。相对于传统雷达,认知雷达可以根据外部环境和目标特性智能化地选择发射信号、工作模式和资源分配方式等,改变了传统雷达技术单向的信息处理方式,有望显著改善雷达系统综合性能。目前,关于认知雷达理论和方法的研究多关注于某一个单向技术,系统性不强。针对该问题,本文结合实际应用需求,对
数据中心网络是支撑云计算服务和应用的基础,其性能直接影响服务提供质量,网络流量调度是保障云计算时代数据中心建设的关键技术。传统的网络流量调度方法以降低流量完成时间FCT(Flow Completion Times)为目标,在流量大小或传输截止时间等先验知识已知的基础上对流量进行优先级划分。虽然在以上先验知识未知的情况下,基于多级优先反馈队列的网络流量调度方法PIAS(Practical Infor
微波滤波器,是现代通信系统中的重要器件,其性能的优劣会对整个通信系统产生重要影响。相较于传统的金属腔体滤波器,介质滤波器是经过多级耦合而获得选频作用的微波器件,具有色散程度弱,损耗低等优点,在移动通信、数字卫星通信等领域有较大的应有市场。受加工工艺和制作成本的限制,传统的介质滤波器设计方法需要经过反复的模拟验证来调整模型结构,具有设计周期长、设计过程不可复用等缺点,随着结构复杂性的增加,模型的设计