汉语复句书读前后语言片段的非分句识别

来源 :安庆师范学院学报(社会科学版) | 被引量 : 10次 | 上传用户:sky007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了满足中文信息处理事业的需要,在字处理和词处理阶段取得了初步成效后。句处理工作已经提上了重要的“议事日程”,因为自然语言理解归根结底还是对语言中一个一个句子的理解。汉语的句子包括单句和复句,其中复句的机器理解又是重难点所在;除了因为复句的机器理解必然要建立在单句理解的基础之上,还有一个重要的原因是复句的机器理解牵涉到分句之间层次和逻辑语义关系的划分。同时,随着计算机软硬件技术的提高,作为对基于规则的理性主义方法的一种补充,基于统计或实例的语料库方法日益得到了计算语言学家们的亲睐。正是在这种背景下,我们尝试建立一个“精加工”的现代汉语复句语料库,以期为复句的计算机理解提供相关语言知识和统计数据。本文只是这项语料库建设工作的一部分,主要目标是在进行语料库中复句语料的分句层次和关系划分以前,首先排除掉那些不参加复句层次和关系划分的书读前后语言片段,即对非分句语言片段进行识别和标注。主要内容如下:第一章首先回顾了前人对单复句纠结问题的研究,分析了单复句纠结的复杂现象,并尝试从认知语言学的“原型”角度看待这一客观事实,用“小句中枢”理论界定非分句(分句)的性质和范围;接着以标点符号为标记让计算机对分句进行了初步识别,排除了其中的一些非分句;最后对计算机不能以标点符号为标记识别的非分句进行了细致的分类描述,有汉语断句的随意性造成的非分句。有由于分句的某个组成成分比较复杂而促成的非分句,还有句子的某些特殊成分单独充当一个语言片段而形成的非分句。第二章首先介绍了词性和非分句的标注说明:接着根据“小句核心词”和“动词中心说”理论,利用标注的词性信息对一部分不包含动词的非分句进行了自动识别,并制定了一系列规则对这部分非分句实现类型的自动标注;最后,本章把一些由形式相对固定的短语充当的语言片段单独放入短语库中,通过制定一系列的短语库规则对它们进行自动识别。第三章利用句法信息实现了一部分非分句的自动识别和标注。首先简单描述了计算机处理自然语言的工作模式;接着讨论了两种类型的“形式标记”及其对识别和标注非分句的作用:一类是显性形式标记,如介词充当的开头标记,时间词、方位词等充当的结尾标记,另一类是结构助词“的”和表判断义的动词“是”;并在此基础上制定了计算机自动识别和标注非分句的另外一系列规则,添加到规则库中。第四章是基于前两章所编规则的实验及其结果分析。首先建立一个access数据库,把规则中出现的开头标记和结尾标记逐一录入到这个库中。在判断某个语言片段是否为非分句时采用简单的字符串匹配法,把每个语言片段的开头部分或结尾部分跟数据库里录入的开头标记或结尾标记进行匹配。匹配成功的就是非分句。接着通过人工方式逐条检验了规则的识别或标注正确率,并简要分析了产生错误的原因及今后的改进策略。要特别说明的是,第二章和第三章的规则都是在训练集中制定的,因此我们还要在训练集中统计这些规则的贡献率,然后把这些规则推广应用到整个复句语料库看正确率如何,同时不断改进和完善规则。第五章尝试综合利用句法、语义和搭配知识来识别一部分非分句,这方面的工作目前尚处于试验阶段。本章首先论述了语义知识在自然语言计算机理解中的重要性,接着介绍了国内外面向计算机研究语义的概况,并给出了本文所运用的语义理论。然后针对本项研究的具体情况阐述了工作前提,包括研究语料的选取和限定、解决问题的思路等。接下来就围绕语义角色、语义类别和语义特征等三要素,试着为108个动词的127个义项建立起动宾语义搭配框架,并提出了判断动词后面两个名词之间有无偏正关系的十八条形式标准,还运用所建立的搭配框架分析了几个子语料库2中的实例,提出了建立“动宾搭配频率表”的设想。末尾对全章内容有个小结。第六章根据邢福义先生的有关论著从理论上制定了一系列识别名词充当核心词的分句即名词谓语句的规则,尽管训练语料库中的实际用例甚少。这部分规则并没有来得及在程序上实现,也未曾针对实际语料进行过人工检验。
其他文献
本文的主题,是1958年大跃进的兴起和中国对外政策以及安全战略"革命性"变化之间的互动关系。从毛泽东"革命后的革命"发展的内在逻辑来看,大跃进不是由于领导人的心血来潮而突
目的:探讨我院药品不良反应(ADR)工作存在的问题及持续改进措施。方法:对我院2009-2010年上报的1220例ADR报告,分别按患者年龄与性别、报告人职业、引起ADR的药品种类、临床
目的:基于针刺治疗原发性抑郁症(MDD)的高质量临床证据与多指标决策,获得针刺治疗MDD最优的干预方式。方法:计算机检索国内外医学文献数据库,全面收集2012年以前针刺治疗MDD
目的了解某一特定人群在体检项目选择中存在的问题,从而制定有针对性的体检和健康教育方案。方法对体检者在体检前后检查项目关注度和知晓度方面进行随机问卷调查,并在体检时
<正> 位于北京外城南部的天坛建筑群,布局严谨,建造奇特,装饰瑰丽,色调协调,是我国现存最大的一组坛庙建筑,也是我国古建筑中出类拔萃的杰作。天坛最初叫作天地坛,建于明永乐
目的:促进辽宁省生物医药产业生产效率提高。方法:采用数据包络分析(DEA)方法对辽宁省与上海、河南、山东等其他9个省市的生物医药产业生产效率进行评价和比较。结果与结论:
目的:从分子生物学水平研究补肾化痰中成药灵术颗粒调控多囊卵巢综合征(PCOS)模型大鼠卵泡基底膜分子筛功能,调节两细胞间信息交换,促进卵泡发育的可能作用靶点,阐明其疗效的
大学英语教育是高等教育中重要的教学内容。近几年来,教育界都在探索大学英语教学的发展趋势与方向。教育活动是基于实际需求而开展的,因此教育者需要对教育状态进行分析后作
2008年底以来,阿克苏地区阿拉尔市房地产市场出现房价逐渐走高,商品房投资额增幅加大,内部结构不平衡等持续发展偏热的迹象,针对这种现象,对商品住宅价格的研究就显得十分必
目的:比较瑞舒伐他汀与辛伐他汀治疗缺血性脑卒中的疗效。方法:选择天津市环湖医院2009年9月-2010年9月确诊的缺血性脑卒中患者150例,随机分为2组。瑞舒伐他汀组76例,给予口