搭配抽取及中国英语的动词搭配特征

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:lmy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搭配现象存在于所有自然语言。搭配是语言学中的重要概念,在语料库语言学、自然语言处理、英语教学、词典学等领域均有关于搭配的研究。本文结合语料库语言学理论和自然语言处理技术,研究搭配的自动抽取,并以中国英语新闻语料为例探讨了中国英语的动词搭配特征。本文基于Manning和Schutze的搭配概念提出了搭配的5个定义特征,即统计频繁性、组合非修饰性、聚合非替换性、语义非合成性、互译非直译性。并在此基础上提出了一个包含“统计-组合-聚合-语义-互译”的5个层次的概念框架。本文依据搭配的概念框架构建“统计-聚合-组合”搭配抽取模型,实现了搭配抽取工具。首先对语料进行自然语言方面的预处理:然后从搭配候选中依次抽取边缘搭配、半边缘搭配、核心搭配。边缘搭配是所有频率大于等于闽值的依存三元组;半边缘搭配’是使用本文提出的LMP关联度方法对边缘搭配排序后大于阈值的搭配;核心搭配是使用本文建立的相似词库进行对半边缘过滤后不能被相似词替换的搭配。实验的训练集是从中国政府英文网、新华网等爬取的中国英语新闻语料,大小为126M;测试集为从《牛津搭配词典》选取的813条搭配,评价指标为准确率(P)、召回率(R)和F值(F)。结果表明,本文中的LMP关联度方法优于其他关联度方法;组合限制可以有效过滤掉大部分噪音;聚合限制可以有效提取非常核心的搭配;在评价抽取方法时关键度可以作为测试集采样的考虑因素之一。最后,本文利用自动抽取的搭配对中国英语的动词搭配特征进行了研究。通过分析从中国英语新闻语料中自动抽取的动词搭配,探索了中国英语中动词的主观性、相似性及相似动词的搭配特异性。主观性和相似性分析可以应用于词典编撰,特异性分析可以为中国英语相关的教学提供一些参考。本文的搭配概念框架可以为设计新的抽取模型提供理论基础,搭配抽取工具可以用于语言资源建设,搭配分析拓展了基于语料库的中国英语研究。
其他文献
通过在抗旱防雨棚内的小区试验,设置正常供水和中度干旱胁迫两个水分处理,以当前推广面积较大的玉米杂交种郑单958为对照,对辽宁省目前主推的5个玉米杂交种丹玉39号、先玉335
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
随着全球化步伐的不断迈进,同声传译这一高效、省时的口译方式在越来越多的场合受到了青睐。根据工作场合的不同,同声传译一般分为会议同传和媒体同传,本文涉及的电视同声传
21世纪,国际交流越来越频繁和显著,语际翻译的情况也是如此。不仅有大量中外经典作品在世界各地广为流传,而且不少具有指导意义的书籍和文本资料已出版并传入中国。同时,译者
目的寻找高血糖与高尿酸血症协同加重内皮细胞损伤的共同作用靶点和分子机制,为糖尿病合并高尿酸血症患者心血管疾病的保护提供干预靶点。方法用人脐静脉内皮细胞系(HUVEC-C)给