论文部分内容阅读
目前语料库语言学用于语言学研究的方法主要是基于语料库的(corpus-based)方法和语料库驱动的(corpus-driven)方法。基于语料库的方法使用语料主要是为了解释、检测或例示传统语言理论(的正确性)。语料库驱动的方法则认为传统语言理论与语言事实之间存在差异,基于语料库的方法不着眼挑战已有语言描叙或语言理论,没有充分利用语料的潜能,从而不能对丰富的语言事实做出理想的解释。语料库驱动的方法主张:语言理论不应先于语言事实,而只能由之直接产生,同时还要要完整地反映所观测到的语言事实(Tognini-Bonelli 2001)。 Rayson(2002)则另外提出了一种用于语言学研究的数据驱动(data-driven)的方法。通过对以往研究的调查,他认为在确定待研究的语言特征方面前两种方法均存在不足之处,那就是研究问题通常先于语言研究,差别只在于证实与质疑,从而有可能遮蔽其他更普遍的语言特征的发现。Rayson的方法是运用频率凸现(frequency profiling)和检索(concordance)这两个语料库研究手段对经过语义标注的语料先进行宏观分析,然后微观分析,从而发现凸现的候选研究问题。他把这个语言发现过程概括为“建库—标注—抽取—问题—阐释(build—annotate—retrieve—question—interpret)”。这种数据驱动方法产生的问题然后通过前两种方法进行分析。 本文和Rayson同样认为基于语料和语料驱动的方法各有适用的领域,无优劣之别,但在确定语言研究问题时需要先宏观,后微观,从而能够发现以前被忽略的语言现象。和Rayson不同的是,本文提出的基于关键词的数据驱动方法的宏观发现过程不是基于语义的对比,而是基于词汇的对比。提出这种方法的一个原因是语义标注在国内还不成熟,另一个原因是已有语料库研究初步显示基于词汇和基于语义的语料库研究都能对同一语料作出相似发现(Archer and Rayson 2004;Baker and McEnery 2004;Deegan and Short 2004)。 基于关键词的数据驱动方法的语言发现过程是“建库—抽取—问题—阐释”,亦即是,首先建立目标语料库作为要进行语言特征发现的对象,然后通过语料库语言学的统计方法对目标语料库进行分析,在这个步骤中发现潜在的可供进一步