论文部分内容阅读
在语言文字研究领域,基于大规模真实文本的语料库发挥着越来越大的作用,建设大规模高质量语料库某种程度上是语言文字研究的基础性工作。然而由于现阶段语料库在构建过程中分词标注标准不统一甚至缺乏,再加上人工分词、标注、校验时难免疏忽,导致同一字段在相同、相似语境中切分结果不一致。这种现象在中古汉语语料建设中更为突出,它不仅影响了语料库分词的正确率,还将错误带到了语料进一步加工、使用的环节。因此,应将分词一致性作为衡量语料库质量的重要标准之一。本文首先对深加工中古汉语语料库作了简单地介绍,然后具体针对中古汉语语料库中存在的分词一致性问题,通过程序统计出其中的分词不一致字段,从语言学角度对其进行分类研究,并制定分词标准,通过多种特征相结合的方法,来提高分词结果的准确率及一致性。该方法通过统计中古语料库不一致字段,结合其语境,找出中古汉语分词不一致产生的特殊原因,并针对这些字段制定具体的分词规范,然后用人工校对的方法逐一解决实验语料中的分词不一致问题。基于CRF分词软件,引入多种分词特征,尤其是词典标记,实现多种特征相结合的分词方法分别进行对比实验,最终选定最有利的分词特征及模板。实验取得预期目标,封闭测试准确率达99%以上,开放测试准确率也均超过了90%,证明基于中古特定分词规范、统计与词典相结构的方法可以更好地解决分词不一致问题,有效提高分词准确率。主要工作如下:1.抽取中古汉语语料库中28万余人工分词语料,运用程序初步统计出其中可能存在分词不一致的字段,在人工校对的基础上,对这些字段进行分类,找出真正分词不一致(个例不一致)的组合及其语境信息,确定本文研究对象。2.从语言学角度分析中古汉语分词不一致出现的独有原因,然后从结构角度对分词不一致组合进行分类,揭示特定结构出现分词不一致的状况及原因,基于此建立中古汉语分词规范。3.依据规范整理28万余人工分词语料作为CRF训练语料,来解决语料中存在的个例不一致问题,提高分词准确率。在CRF分词软件中引入字符类型、声韵调、部首、词典词标这四种特征,通过实验对比这几个特征对分词结果影响的权重;制定不同的分词模板,在实验统计的基础上选择分词结果最好的模板,从而确定CRF分词特征及模板。4.基于整理好的训练语料、实验效果最好的分词特征及模板进行CRF对比实验,实验结果达到预期目标,开放测试、封闭测试的准确率分别超过了99%和90%,并进一步分析实验结果。在统计分析数据的基础上,本文详尽研究了中古汉语分词不一致字串,针对该字串制定了分词规范,并提出了基于多特征的CRF分词策略,取得了较好的效果。对中古汉语语料库进行封闭测试和开放测试时,正确率都达到了比较满意的结果,可见采用该方法确实能有效提高中古汉语语料库的分词质量。