SikuBERT与SikuRoBERTa:面向数字人文的《四库全书》预训练模型构建及应用研究

来源 :图书馆论坛 | 被引量 : 0次 | 上传用户:sj20091021
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数字人文研究需要大规模语料库和高性能古文自然语言处理工具的支持。面向英语和现代汉语的预训练语言模型已经在相关领域极大地提升了文本挖掘的精度,数字人文研究的兴起亟需面向古文自动处理领域的预训练模型。本文以校验后的高质量《四库全书》全文语料作为无监督训练集,基于BERT模型框架,构建了面向古文智能处理任务的Siku BERT和Siku Ro BERTa预训练语言模型。实验进一步设计了面向《左传》语料的古文自动分词、断句标点、词性标注和命名实体识别等验证任务,分别对siku Bert、siku Ro BERTa预训练模型和其他三种基线模型(BERT-base、Ro BERTa、Guwen BERT)进行对比试验。结果显示,Siku BERT和Siku Ro BERTa模型在全部4个下游验证任务中的表现均超越其他基准预训练模型。这表明本文提出的预训练模型具有较强的古文词法、句法、语境学习能力和泛化能力。进一步,本文基于验证任务效果最优的Siku Ro BERTa预训练模型构建了“SIKU-BERT典籍智能处理平台”。该平台提供了典籍自动处理、检索和自动翻译等三种在线服务,可以辅助哲学、文学、历史学等领域学者在不具备数据挖掘与深度学习的专业背景下,以直观可视化的方式对典籍文本进行高效率、多维度、深层次、细粒化的知识挖掘与分析。
其他文献
建立国际旅游消费中心是海南自由贸易港"三区一中心"重要战略定位之一,而打造国际医疗旅游目的地则是建设国际旅游消费中心的重要内容。作为世界上第一个在自由贸易港建设的健康园区,迪拜健康城由零基础到快速发展成辐射22亿人口的国际医疗旅游目的地,其发展历程值得海南自由贸易港借鉴。海南需结合海南自由贸易港政策和本地要素资源特点,以问题为导向,借鉴迪拜健康城发展模式,以PDCA戴明环为原型,通过明晰定位、精准
该文运用了文献资料法、专家访谈法、观察法等研究方法,以羽毛球挑球、网前搓球、杀球和高远球的技术动作对网球中的正反手击球、网前放小球、高压球和发球中的技能迁移作为研究的内容,将迁移理论、项群训练理论等作为理论依据,对羽毛球技术动作在网球技术动作中的运动技能迁移情况进行深入的研究,找出羽毛球技术动作在网球技术动作中能够发生正迁移的技术动作。为教师在网球实际教学以及训练中丰富教学手段,优化教学效果提供一
科学技术是第一生产力,21世纪更被认为是科技创新的世纪,"知识经济"成为本世纪经济发展的关键词。过去20年来新科技井喷式的涌现,催生许多新的产业,许多传统产业也因此发生了产业结构、生产方式、销售方式等多方面根本的改变。我国体育产业在国家健康大政策环境下迎来了绝佳的发展机遇,而具体发展路径则应依托现代科技新成果,积极将科技成果转化为体育产业新产品,提升我国体育产业的科技含量,从而增强产业活力和国际竞