论文部分内容阅读
古汉语与现代汉语有很大区别,古汉语研究直接套用现代汉语成果并不可行。目前的古汉语现有研究使用的方法相对陈旧。随着深度学习技术的飞速发展,特别是基于海量文本的预训练模型的出现,深度模型在许多现代汉语的自然语言处理任务上的表现都获得巨大的提升。本文的工作试图让古汉语处理领域跟上时代发展。本文在这方面所做的第一项工作就是收集并清洗近4亿字来自互联网上的古汉语语料,并在此基础上完成了古汉语的BERT预训练模型。这是在古汉语研究领域内预训练方法的首次尝试和突破。随后本文以此模型为基础试图解决古汉语研究中的两项关键性基础问题——句读与分词问题。断句及标点任务,也称为句读,是将连续的汉字字符串中添加断开标记或标点符号,使之成为更容易阅读的合理句子。之前学者已经使用过规则方法、传统机器学习方法以及深度学习的序列切割方法,但是普遍存在数据基础薄弱,泛化能力不足等问题。古汉语分词问题与现代汉语分词任务定义相同,但是缺乏现代汉语的大量分词标记语料。既往研究只在极小的领域内进行过尝试,如果打算用在具有上下三千年历史且文体风格各异的古文上,无疑开销巨大,或许将是不可完成的任务。在断句及标点任务上,本文使用BERT预训练模型加微调的解决方案。模型与前人使用的双向GRU模型及本文改进的BiLSTM+CRF等基线模型相比,F1值有十分明显的提升,获得了当前最佳结果,并表现出良好的泛化能力。与评测不同,本文工作在实际运用时,发现古籍文本无句亦无段,是连续的可能长达若干千字的连续文本,设计了基于滑动窗口的句读方法,使得模型可处理的序列长度不受限制。在古汉语分词任务上,本文首次尝试使用无指导方法,通过将非参数贝叶斯模型与预训练BERT深度学习语言建模方法相结合,获得了相当好的基本结果。进一步使用标准语料进行性能提升,可用极少的语料获得与前人大规模语料训练相当的结果。在《左传》数据集上,本文提出的无指导多阶段迭代训练分词方法获得的F1值为90.81%;使用500句分词语料进行弱指导训练时,F1值95.55%,即可达到与前人工作相同水平;如果增加至与前人相同的15万字规模时,本文方法F1值为97.40%,为当前最优。通过对不同时期和风格的文本进行测试,本文在大规模预训练模型基础上进行的工作显示出相当好的泛化能力。这是有指导机器学习方法所不可能做到的。