论文部分内容阅读
搭配现象存在于所有自然语言。搭配是语言学中的重要概念,在语料库语言学、自然语言处理、英语教学、词典学等领域均有关于搭配的研究。本文结合语料库语言学理论和自然语言处理技术,研究搭配的自动抽取,并以中国英语新闻语料为例探讨了中国英语的动词搭配特征。本文基于Manning和Schutze的搭配概念提出了搭配的5个定义特征,即统计频繁性、组合非修饰性、聚合非替换性、语义非合成性、互译非直译性。并在此基础上提出了一个包含“统计-组合-聚合-语义-互译”的5个层次的概念框架。本文依据搭配的概念框架构建“统计-聚合-组合”搭配抽取模型,实现了搭配抽取工具。首先对语料进行自然语言方面的预处理:然后从搭配候选中依次抽取边缘搭配、半边缘搭配、核心搭配。边缘搭配是所有频率大于等于闽值的依存三元组;半边缘搭配’是使用本文提出的LMP关联度方法对边缘搭配排序后大于阈值的搭配;核心搭配是使用本文建立的相似词库进行对半边缘过滤后不能被相似词替换的搭配。实验的训练集是从中国政府英文网、新华网等爬取的中国英语新闻语料,大小为126M;测试集为从《牛津搭配词典》选取的813条搭配,评价指标为准确率(P)、召回率(R)和F值(F)。结果表明,本文中的LMP关联度方法优于其他关联度方法;组合限制可以有效过滤掉大部分噪音;聚合限制可以有效提取非常核心的搭配;在评价抽取方法时关键度可以作为测试集采样的考虑因素之一。最后,本文利用自动抽取的搭配对中国英语的动词搭配特征进行了研究。通过分析从中国英语新闻语料中自动抽取的动词搭配,探索了中国英语中动词的主观性、相似性及相似动词的搭配特异性。主观性和相似性分析可以应用于词典编撰,特异性分析可以为中国英语相关的教学提供一些参考。本文的搭配概念框架可以为设计新的抽取模型提供理论基础,搭配抽取工具可以用于语言资源建设,搭配分析拓展了基于语料库的中国英语研究。