论文部分内容阅读
大规模计算机语料库包含丰富的语言现象,能够充分的反应语言使用的普遍规律,已经引起许多国家的信息技术领域和语言学界日益浓厚的兴趣,成为自然语言处理领域的热点话题。特别地,随着基于统计规则的研究方法的兴起,语料库更是成为其研究的核心内容和基础。但是目前中文语料库稀缺,尤其是在文本分类领域,各种类型的中文文本分类语料库更是缺乏。在文本分类已经成为大规模数据处理应用的核心和基础的今天,语料库研究的滞后成为信息技术发展的阻碍。目前,创建计算机语料库的方法一般是组织各个领域的专家,从浩如烟海的知识中,选取符合语料库要求的语料,在这个过程中需要大量的人力物力资源,并且创建的语料库的优劣通常与参与专家的水平有关,带有一定的主观特性。同时信息处理技术在快速发展,也需要大量的各种专业、垂直语料库。因此为了减少创建语料库的成本、降低人工参与的程度、缩短创建语料库的时间,本文在对现有各种语料库特点进行分析的基础上,提出了一种自动创建中文文本分类语料库的方法。本文主要做的研究包括以下几个方面:1.设计并实现了一种自动创建中文文本分类语料库系统。该系统能够自动抓取Internet上各个网站的页面,并对其进行页面处理、主题信息提取、核心词获取以及规模控制,最终将这些信息作为语料库的语料。2.提出并实现了一种自动识别和统一页面编码的算法。该算法能够有效地识别从网络上下载的大量网页的编码方式。同时能够将所有的页面的编码方式转变成一种程序易于处理的方式。并且该模块可以方便地应用到各种Web数据处理的程序中。3.对下载的页面进行了结构分析,并实现了一种页面正文信息抽取的方法。该方法能够对页面进行处理后取出页面中主题相关信息。4.提出了类别核心词的概念,同时实现了获取类别核心词的算法。通过该算法能够获取到类别的核心词,在对这些核心词的重要性排序后,可以根据这些核心词和类别的名称联合来扩充语料库的规模。实验表明,上述系统能够自动创建计算机文本分类语料库,并且创建的语料库在各种类型的文本分类器中表现良好,具有一定的使用价值。