【摘 要】
:
信息时代的发展使得人工难以处理每日产生的海量数据,对风险投资、数据走向、金融监管等分析任务带来了极大的困难和挑战。在这一背景下,自动化信息抽取技术成为了解决这一问
论文部分内容阅读
信息时代的发展使得人工难以处理每日产生的海量数据,对风险投资、数据走向、金融监管等分析任务带来了极大的困难和挑战。在这一背景下,自动化信息抽取技术成为了解决这一问题的有效手段。本文通过自动化信息抽取技术,提取表格图像类公告和人事调动类公告中的有效信息。表格是公告中的一种重要形式,本文设计了一种针对市政府预决算公告中表格图像的识别与处理方法,识别表格和表格中单元格的轮廓线,定位并截取图片中的单元格,提取出单元格的内容信息,并保存单元格的行列位置信息。在识别过程对比使用了比较流行的开源识别工具Tesseract和商用识别工具百度智能云OCR,并将识别结果和行列位置综合输出,提取出表格中的信息。对于人事调动类公告,本文提出了一种基于BERT-BiLSTM-CRF的人名与职位名识别的命名实体识别模型,该模型在传统的BiLSTM-CRF命名实体识别模型基础上,使用当下流行的BERT模型代替Word2Vec模型预训练词向量,改善了特征提取的效果,提高了命名实体识别的结果。识别到实体信息后,通过对句子中关键词的匹配,制定规则来建立人名与人名、人名与职位名间的关系,提取出完整的人事调动信息,便于其他任务做进一步的处理。表格图像信息抽取任务使用了大连预决算文件作为实验数据,Tesseract和百度智能云OCR的识别结果准确率分别为83.67%和99.57%。文本信息抽取任务使用新浪财经网站上公布的人事调动类公告,本文提出的BERT-BiLSTM-CRF模型在在人名和职位名识别的F1值分别达到了98.7%和91.63%,比BiLSTM-CRF的结果分别提高了4.35%和3.11%;在建立人名与职位名的关系并输出为最终结果方面,得到的准确率为83.96%。
其他文献
咏明史乐府诗是专以明史为吟咏对象的乐府体咏史诗。清初,在新旧朝交替的时代背景下,由于明史学的兴盛、清廷文化政策的刺激、咏史乐府诗体的发展,咏明史乐府创作兴盛且在顺
合成孔径雷达(Synthetic Aperture Radar,SAR)可以实现全天时、全天候对地观测,在民用领域和军用领域都得到广泛的应用。但常规单通道SAR系统受制于最小天线面积约束,无法同
判断信号是否属于一个给定的子空间,即匹配子空间检测,是信号处理领域一个很重要的问题。传统的匹配子空间检测的方法是基于向量模型的,即将信号表示成向量,根据信号落在给定向量子空间的能量判断该信号是否属于给定的向量子空间。随着物联网和大数据的发展,以及多传感器网络的应用,数据量越来越大,多维数据也大量增加,基于向量的匹配子空间检测方法具有很大的局限性。张量,即多维数组,在大数据分析和数据处理中有着广泛的
改革开放后我国经济经历了飞跃的发展,众多学者探讨了这其中的原因,而政治晋升锦标赛理论的提出得到了绝大多数学者的认可。政治晋升锦标赛理论认为我国地方官员晋升存在着以
目的本文通过构建结构方程模型,探索家庭“向上”代际支持对农村老人生理、心理和功能健康的影响,探索农村老人健康改善的政策建议。对象与方法利用2014年CLHLS调查数据库,以
在皮尔士及其溯因思想的追随者们看来,溯因是一种与演绎和归纳并列的独立的推理方法,它在科学发现中起着创造性作用。由于溯因的形式逻辑刻画会流失溯因的认知特性这些更重要
在现代篮球技战术不断更新和发展的背景下,训练技术和方法不断创新,越来越多的高科技手段运用到日常训练和比赛中,极大地促进了篮球运动的发展,让篮球运动在比赛中更加具有实
青少年爱国教育一直以来就深受党中央重视,但随着时代的发展,全球化与文化多元化给国家认同问题赋予了新的内涵。在这一新的时代、新的挑战下,如何加强国民的国家认同感,成为
“真(truth)”自始至终都是逻辑学研究的核心主题之一。尤其是近四十年以来,作为真之理论主要分支的紧缩真理论受到越来越多的重视,而作为紧缩真理论最新版本的极小主义真理
在《关于公证债权文书执行若干问题的规定》施行前,执行证书的性质备受争论。虽然现行司法解释将执行证书定性为证明材料,但证明材料的性质不足以支撑其成为申请强制执行的必