中古汉语语料库分词不一致问题研究

来源 :南京师范大学 | 被引量 : 1次 | 上传用户:gaozhanlong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在语言文字研究领域,基于大规模真实文本的语料库发挥着越来越大的作用,建设大规模高质量语料库某种程度上是语言文字研究的基础性工作。然而由于现阶段语料库在构建过程中分词标注标准不统一甚至缺乏,再加上人工分词、标注、校验时难免疏忽,导致同一字段在相同、相似语境中切分结果不一致。这种现象在中古汉语语料建设中更为突出,它不仅影响了语料库分词的正确率,还将错误带到了语料进一步加工、使用的环节。因此,应将分词一致性作为衡量语料库质量的重要标准之一。本文首先对深加工中古汉语语料库作了简单地介绍,然后具体针对中古汉语语料库中存在的分词一致性问题,通过程序统计出其中的分词不一致字段,从语言学角度对其进行分类研究,并制定分词标准,通过多种特征相结合的方法,来提高分词结果的准确率及一致性。该方法通过统计中古语料库不一致字段,结合其语境,找出中古汉语分词不一致产生的特殊原因,并针对这些字段制定具体的分词规范,然后用人工校对的方法逐一解决实验语料中的分词不一致问题。基于CRF分词软件,引入多种分词特征,尤其是词典标记,实现多种特征相结合的分词方法分别进行对比实验,最终选定最有利的分词特征及模板。实验取得预期目标,封闭测试准确率达99%以上,开放测试准确率也均超过了90%,证明基于中古特定分词规范、统计与词典相结构的方法可以更好地解决分词不一致问题,有效提高分词准确率。主要工作如下:1.抽取中古汉语语料库中28万余人工分词语料,运用程序初步统计出其中可能存在分词不一致的字段,在人工校对的基础上,对这些字段进行分类,找出真正分词不一致(个例不一致)的组合及其语境信息,确定本文研究对象。2.从语言学角度分析中古汉语分词不一致出现的独有原因,然后从结构角度对分词不一致组合进行分类,揭示特定结构出现分词不一致的状况及原因,基于此建立中古汉语分词规范。3.依据规范整理28万余人工分词语料作为CRF训练语料,来解决语料中存在的个例不一致问题,提高分词准确率。在CRF分词软件中引入字符类型、声韵调、部首、词典词标这四种特征,通过实验对比这几个特征对分词结果影响的权重;制定不同的分词模板,在实验统计的基础上选择分词结果最好的模板,从而确定CRF分词特征及模板。4.基于整理好的训练语料、实验效果最好的分词特征及模板进行CRF对比实验,实验结果达到预期目标,开放测试、封闭测试的准确率分别超过了99%和90%,并进一步分析实验结果。在统计分析数据的基础上,本文详尽研究了中古汉语分词不一致字串,针对该字串制定了分词规范,并提出了基于多特征的CRF分词策略,取得了较好的效果。对中古汉语语料库进行封闭测试和开放测试时,正确率都达到了比较满意的结果,可见采用该方法确实能有效提高中古汉语语料库的分词质量。
其他文献
为探究铁路大跨T形刚构桥车桥耦合振动特性与动力性能,以宜万铁路马水河大桥为工程背景,建立桥梁空间杆系有限元模型以及包含31个自由度的车辆模型,进行车桥耦合振动计算分析
简述了国内天然乳胶气囊导尿管(简称导尿管)的发展状况,介绍了导尿管的规格、类型、用途及产品结构等,说明了二十多年来国内导尿管生产设备、工艺技术、生产规模及产品质量的
行政诉讼类型化是各国行政诉讼的发展趋势,尽管各国行政诉讼类型化的发展阶段和发展程度各不相同,但都有值得借鉴和学习之处。本文通过对行政诉讼类型化这个概念进行界定和解
本论文的研究内容基于多媒体技术日新月异发展前提下,对多媒体互动装置在公共空间中的应用做了一个整体的研究。新科技的出现创造出了新的环境很大的影响者人们的生活和思维
阐述了目前工程项目地材采购供应现状及存在的主要问题,对地材供应困难的主要原因进行了分析,并提出了应对措施。
众所周知,外语教学在我国已经进行了几十年,而外语教学的理念和教学方法也是几经变革。不同的教学法有着不同的理论基础和教学原则,适用于不同的学生。通过对听说法与认知法
教师提问策略的使用直接决定了教学的有效性。听力课上新手教师是如何使用提问策略的,是本文研究的重点。本文通过对初级听力课新手教师课堂观摩及转写、学生调查问卷以及新
研究了-30℃、-40℃、-50℃和-60℃的不同冷冻环境温度对冷冻面团品质的影响.试验结果表明:冷冻环境温度过高或过低都会降低酵母活性,降低冷冻面团品质,从而使焙烤出的面包品
本文以《现代汉语词典》第四版、第五版和第六版为蓝本,对其中的女性词语进行多角度的探析,旨在通过对词典中女性词语的研究,来探索在社会发展过程中女性词语的变化。本文通
徐州狮子山汉墓建筑规模宏大,其墓葬形制与金缕玉衣、印章封泥等随葬品表明这是一座西汉时期的楚国王陵墓。