论文部分内容阅读
中文自动分词是中文信息处理的一项重要的基础性任务,是机器翻译、问答系统、自动文摘等技术的基础,也是实现中文搜索引擎所必须的关键技术之一。然而由于汉语自身的复杂性,分词问题一直是中文自然语言处理的难题。本文在已有研究的基础上,利用条件随机场(Conditional Random Fields,CRFs)模型进行汉语自动分词的研究。旨在提高汉语分词系统的性能,为后期词法分析和其它自然语言处理任务服务。本文的核心工作可以概括为以下几个方面:(1)简要介绍了相关模型理论,并进一步介绍了以最大熵理论为驱动发展起来的CRFs模型。CRFs模型是目前最为优秀的无向图条件概率模型,主要用于标记和分割序列数据。它克服了最大熵等模型的标记偏置问题;同时,能够考虑节点之间的联系,从而可以利用上下文特征获得全局最优的标注结果。(2)通过对基于字的CRFs的标注结果进行分析发现,CRFs模型中的标注错误大都拥有较低的边缘概率,分别使用正向最大匹配(FMM)方法和基于类的隐马尔可夫模型对这部分边缘概率较低的样本综合边缘概率较高的样本进行修正,以优化系统的识别效果。实验证明,在CRFs边缘概率基础上进行的分词其结果明显好于单纯的CRFs的标注结果。(3)对建立在CRFs模型框架上的,基于字标注的分词方法和一种新型的基于词标注的分词方法进行了综合比较。并在此基础上,根据汉语的特点,尝试使用角色特征信息,来改善基于词标注的CRFs方法对未登录词的识别。本文的主要贡献有:(1)提出了利用CRFs边缘概率来改善CRFs分词性能的方法,该方法可应用于自然语言处理中其它的序列标注任务;(2)有效地利用了已有的研究方法并进行了有机的整合和改进。实验证明,基于条件随机场的分词方法,是一种可行的分词手段。