论文部分内容阅读
自然语言理解是人工智能领域的经典难题,目前国内外有大量的研究。在汉语信息处理领域,相应的研究应该包括有字处理、词处理、句处理、篇章处理。然而到目前为止,关于汉语理解的研究基础比较薄弱,汉语信息处理的研究基本上还停留在“字和词处理”阶段,大多数研究成果都是基于字和词的研究。对于句子的研究尤其是汉语复句的计算机处理相对要少一些。这可能与汉语的难度有关,因为汉语与西方语言不同,它语法和语义都很灵活,没有形态。汉语的句子从结构上可以划分为单句和复句两大类,复句的意义容量比一般单句大,常表示人和人、事和事及人与物的逻辑意义关系。复句一般由分句构成,各分句单独从其结构上看实际上就是小句。复句本身有其复杂且特殊的结构,复句是小句的联结,作为一种语法实体,它下连小句,上连篇章,在单句和篇章之间起到了一个很好的衔接作用,同时兼有语法、语义和语用等多方面的属性。复句的层次关系从某种意义上来说就是复句的灵魂,复句关系词的标识对复句的层次关系起着重要的作用,随着对复句研究的深入,复句关系词的作用显得越来越重要,如何有效地对复句关系词进行标注就显得迫切和重要。本文首先介绍了关于复句领域的一些相关概念和知识,接着介绍了复句关系词的相关知识,并介绍了标注复句关系词的基于规则的方法,基于概率统计的渡越矩阵方法和基于语境计算模型的复句关系词的标注方法。综合利用这些方法能够对汉语中复句关系词进行有效的标注。