汉语财经评论的修辞结构标注及篇章研究

被引量 : 29次 | 上传用户:eyx001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
篇章标注是国际语言资源建设的一个前沿内容。本文遵循国际篇章语料库的建设方法,通过先建立一个较大规模的以语篇为单位的汉语财经评论篇章语料库,然后在修辞结构理论(Rhetorical Structure Theory,RST)的指导下对语料进行了预处理、切分、标注、核查和统计分析,并研究了汉语篇章的修辞结构与表层语言信息之间的各种量化关系,试图为对比语言学和将来建立更大的、自动处理的篇章语料库做些基础工作。在进行汉语篇章修辞结构树库建设的具体工作之前,我们首先从理论上比较了从英语研究发展出来的RST和汉语相关的传统复句、句群、语篇和文章学研究,认为两者在关于篇章结构的基本假设和很多具体问题的结论上都非常相似,但是RST理论在坚持语言的交际观、强调作者交际意图与篇章单元修辞意义的核心性地位的关联性、强调语言结构层级的同质性,以及篇章修辞结构的形式化表达等方面具有比较突出的特点。因此,在总结了RST汉语研究和国际篇章修辞结构树库的建设成绩之后,我们认为有可能也有必要利用该理论对汉语篇章进行基于语料库的实证研究。为此,我们建立了一个含400篇,约80万字的汉语财经评论篇章语料库(Caijingpinglun,CJPL)。该语料库在语料选材上与英语WSJ-RST树库和德语的PCC树库有比较好的可类比性。不过由于语料直接取自网页,存在一些字符编码、文字编辑以及网页上传等问题,所以我们采取了各种比较谨慎的预处理步骤,将网页文档全部转换成有统一编码的文本文档,以保证后续处理的精度和效率。在预处理程序后,标注者首先在文本文档的基础上(同时参考原始网页文档),用普通读者的眼光对全部篇章语料进行了基本信息标注,包括各篇文章的体裁、题材、标题、导语、开头、结尾、出处、作者、来源等,并籍此对语料有了较好的了解。接着,我们依靠选定的篇章基本分析单元(Elementary Unit of Discourse Analysis,EUDA)边界标示符,由机器统一完成了语料的切分。在选定句号、问号、叹号、段落结束标记、分号、冒号、省略号和破折号等篇章单元边界标示符之前,我们对语料中标点符号的分布进行分析。分析显示这些标点符号不仅在绝大多数情况下正确地标示了篇章单元的边界,而且能够保证后续的关系标注具有较小的颗粒度。更为重要的是,根据这些选定的篇章边界符号完成切分之后,我们不再需要对切分结果进行人工干预,只需对极个别切分结果进行粘合,保证了处理的效率和正确率。在完成切分之后,标注者试验性地标注了所有文章各篇章单元之间的修辞关系,以至整个篇章的修辞结构树构造,从修辞结构角度对语料有了更进一步的理解。在该阶段结束的时候,我们筛除了2个存在严重编辑问题的文档和3个以口语性对话为主的长篇电视采访记录文档。从评论语料的实际出发,我们定义了12大组47种汉语的修辞关系和19种新闻篇章组织元素,并拟定了汉语篇章关系标注的工作守则,其中包括可能存在歧义时的修辞关系优先选用原则和一些特殊现象的处理方案。在设立关系和对关系进行定义的时候,我们不仅参考了多个英语、德语、汉语版本的修辞关系集及定义,也参考了汉语复句、句群和语篇研究的相关成果。另外,我们还对一些可能有所争议的切分标记和关系定义进行了一项心理语言学的调查。根据调查结果,又调整了部分关系的定义和关系优先选用顺序。在上述工作的基础上,我们按随机平均抽样原则选取了197篇语料,分2遍完成了对其中较短的97篇文章在EUDA(相当于分号句)及以上层级的修辞关系标注,为每个篇章建立一个覆盖整个文本的篇章修辞结构树,并执行了树结构有效性核查。根据两个版本的修辞结构标注,我们统一了最后的标注(第3遍),然后进行了随机抽样的标注者一致性测试。我们还在不参考修辞结构标注结果的情况下,为97篇语料单独标注了句间篇章提示标记(包括句间关联词语、句间回指指示词和回指代词、有篇章作用的标点符号)。之后,我们利用这些标注结果提取了数据,分析了这些评论语篇各个层级的结构特点、修辞关系的分布和篇章提示语的修辞功能。这项语料库驱动的数据分析显示,1)遵循一定的原则,汉语财经评论绝大多数(93.1%)都能用树结构作大致的形式化表示;2)我们所定义的修辞关系基本上都能被反复地用来连接在各个层级的篇章单元,显示出汉语篇章具有较好的结构层级同质性。3)扩展的经典RST关系集(Mann and Thompson 1988,Mann 2005)在汉语财经评论的篇章单元间关系的覆盖比例为90.4%,余下的关系也基本都可以用已知关系的核心性变异类型来表示。4)汉语财经评论的总体篇章树形,在CJPL语料库中以后段对第一段展开分说的头并卫结构(14.4%)为最多,其次是后段对第一段展开分说并逐步增加其他意思的头降卫结构(13.4%)、先述后评的中降卫结构(13.4%)和逐步展开最后得出结论的尾升卫结构(11.3%)。5)在CJPL语料库中,全文总体表示证明和评价的占53.6%,全文总体表示阐述、解释信息的占46.4%。这一数据说明国内新闻界对评论的社区定义与语言学界从理论角度对论证文的定义有一定的区别。6)虽然财经评论正文中的修辞关系有很多是多核心的,但单核心的核心-卫星模式仍占主导地位,占全部关系总数的64.6%。7)和汉语复句前偏后正的主导性结构不同,汉语评论文在分号句及以上层次中卫星-核心结构与核心-卫星结构的比例为46.16%:53.84%,核心性和篇章单元的次序之间没有明显的关联。8)以议论为主的“媒体财经评论”和以消息报道为主的“新闻联播”在各种关系的分布频率上有些差异,显示出语类对于修辞关系分布的影响。9)汉语评论语篇使用句间关联词语的频率28.5%,其中使用频率最高的连词为“而”;句间关联词语被较多地用于并加-M关系和罗列-M关系;10)一些关系,如附加-S关系、让步-S/-N关系、罗列-M关系等,常有关联词语标示;而另一些关系,如方式-S关系、引述-S关系、评价-M关系、解答关系-M/-S等,几乎没有关联词语表示。11)一些常见的关联词语在语料库中都有句内句外的用法,只是分布上有些差异,有些主要在句间(如“然而”),有些主要在句内(如“如果”)。12)语篇中存在一些句间关联词语连用的现象,大致可以分为强调(或缓和)语气、交叉限制关系和分辖上下文三种类型,其中最后一种类型实际上就是多重复句的关系间包孕能力在句以上单元间的扩展。13)汉语财经评论文最常用的句间回指指示词是“这”和各种带“这”的词语。14)一些标点符号,如问号、分号、冒号等,在汉语篇章中有明显的标示篇章单元间修辞关系的作用,而且与修辞关系核心性的关联度很高。15)虽然一些篇章提示标记(包括关联词语、回指词、标点符号和段落标记等)在汉语篇章中与某些修辞关系有比较强的关联性,但它们之间并不存在一种一一对应的映射关系。16)利用英、德、西等其他语言RST研究的数据,我们发现,修辞关系的有标频率在很多语种中都比较低,而且都常出现在较低的篇章层级单元之间。一些修辞关系,如让步、条件等有标的比例在各个语种中都比较高,而另一些关系,如评价、背景、详述、解答等的有标比例则都比较低。不过具体的比例和各种标记具体所能限制的关系的类型在各个语种之间略有不同。17)汉语篇章结构树的局部子树中存在一种比较特殊的螺旋型的结构。这一结构形式中,一个篇章单元总是与一个离其较远的单元发生修辞关系,而不是与其直接邻居发生修辞关系。如果这就是Kaplan(1966)所谓的圆周型(Circular)结构,且如果将来更多的语篇标注结果显示这一局部子树的结构形式有比较显著的频率,那么将说明Kaplan(1966)关于汉语篇章圆周型结构的假设有其正确的一面。18)汉语篇章修辞结构的层级同质性、汉语篇章结构中核心-卫星模式的主导地位以及经典RST关系集在汉语中的覆盖率都从实证角度说明了RST理论在汉语中的可移用性。虽然汉语财经评论树库的建设目前只取得了阶段性的进展,但我们认为,这一研究在中文信息处理、篇章理论研究和社会文化研究等方面都具有现实意义。首先,汉语财经评论树库的构建,可以为自然语言工程界提供篇章剖析所需的各类先验系数,帮助他们改进现有的汉语自动文摘模型,并为现有汉语自动篇章剖析算法提供训练和测试的平台。有了汉语RST树库,也就有了借鉴应用英语、德语等其他语种的篇章处理技术的物质基础,将帮助中文信息处理尽快地缩小与其他语言信息处理的差距。其次,我们对汉语财经评论语料的标注研究,在较大规模数据的基础上检验了修辞结构理论及其形式化方法在汉语中的可移用性。同时,我们也从篇章修辞结构的角度,拓展了汉语篇章提示标记的研究视野。如果有类比性好的语料库,也可以进行语言对比研究、语类对比研究等。另外,虽然语料库建设目前还很少用来为人文社会科学提供资源,我们还是可以预见它的广阔用途,比如基于大规模语料库的语用事实挖掘。在语料库基础上对汉语新闻评论做语言学性质的研究也会是一片广阔的天空。
其他文献
科技型中小企业,作为中小企业中最具活力和创新的群体,正以其发展迅速改变着传统产业和整个世界经济的面貌,也越来越受到全社会的广泛关注。但由于其自身的经营特点,科技型中
我国经济、政治、文化体制改革的不断深入,从根本上改变了城市社会环境,改变了国家、社会、企业和个人之间的关系,改变了计划体制下国家统一配置资源的模式;经济体制改革所倡
2009年,美国《福布斯》杂志评选出美国最富有家族榜,沃尔顿家族以900亿美元荣登榜首。作为沃尔顿家族的缔造者和沃尔玛的创始人,山姆·沃尔顿不仅成就了一个商业传奇,还成为
企业政治战略主要反映政府与企业之间的关系。或者说,把政府视为企业发展的主要的外部政治环境和资源。在现代市场经济中,这种关系日显重要。而既往研究往往缺乏对企业政治战
等速万向节是汽车传动系统中的重要部分,而内球笼是等速万向节中的关键锻件。目前,国内汽车工业发展迅猛,需要大量汽车等速万向节精密锻件。本文选用车用等速万向节球笼为研
<正> 【案情简介】李某,男,1961年5月7日生。一审法院经审理认定,李某与其他12名被告人组成流氓集团,私藏枪枝、砍刀、铁棍等犯罪工具,用暴力手段强占市场,欺行霸市,牟取暴利
体育社团承接政府职能转移应在严格遵循政府主导原则、法治原则、目的性原则、渐近原则基础上,采取概括式承接、部分性承接、试点式承接以及"休克"式承接。通过这种方式,才能真
从语篇思维模式、语类结构及连贯与衔接等方面探讨语篇分析在大学英语写作教学中的应用,认为在英语写作教学中,教师要根据学生的具体情况,从语篇的角度对学生进行系统的指导和训
车辆四轮转向(Four-Wheel Steering)技术是改善汽车横向动力学性能的重要方法之一,本课题研究基于虚拟模型的4WS系统在控制策略下的操纵动力学特性。主要研究内容如下:1)根据