文本分类语料库自动创建系统的研究与实现

被引量 : 4次 | 上传用户:yelulsww910
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大规模计算机语料库包含丰富的语言现象,能够充分的反应语言使用的普遍规律,已经引起许多国家的信息技术领域和语言学界日益浓厚的兴趣,成为自然语言处理领域的热点话题。特别地,随着基于统计规则的研究方法的兴起,语料库更是成为其研究的核心内容和基础。但是目前中文语料库稀缺,尤其是在文本分类领域,各种类型的中文文本分类语料库更是缺乏。在文本分类已经成为大规模数据处理应用的核心和基础的今天,语料库研究的滞后成为信息技术发展的阻碍。目前,创建计算机语料库的方法一般是组织各个领域的专家,从浩如烟海的知识中,选取符合语料库要求的语料,在这个过程中需要大量的人力物力资源,并且创建的语料库的优劣通常与参与专家的水平有关,带有一定的主观特性。同时信息处理技术在快速发展,也需要大量的各种专业、垂直语料库。因此为了减少创建语料库的成本、降低人工参与的程度、缩短创建语料库的时间,本文在对现有各种语料库特点进行分析的基础上,提出了一种自动创建中文文本分类语料库的方法。本文主要做的研究包括以下几个方面:1.设计并实现了一种自动创建中文文本分类语料库系统。该系统能够自动抓取Internet上各个网站的页面,并对其进行页面处理、主题信息提取、核心词获取以及规模控制,最终将这些信息作为语料库的语料。2.提出并实现了一种自动识别和统一页面编码的算法。该算法能够有效地识别从网络上下载的大量网页的编码方式。同时能够将所有的页面的编码方式转变成一种程序易于处理的方式。并且该模块可以方便地应用到各种Web数据处理的程序中。3.对下载的页面进行了结构分析,并实现了一种页面正文信息抽取的方法。该方法能够对页面进行处理后取出页面中主题相关信息。4.提出了类别核心词的概念,同时实现了获取类别核心词的算法。通过该算法能够获取到类别的核心词,在对这些核心词的重要性排序后,可以根据这些核心词和类别的名称联合来扩充语料库的规模。实验表明,上述系统能够自动创建计算机文本分类语料库,并且创建的语料库在各种类型的文本分类器中表现良好,具有一定的使用价值。
其他文献
如何应对学生开小差,有消极和积极两种方式。真正积极的态度应该注意以下几点:一是力求把课讲得生动;二是教学要面向全体同学;三是要做好课前的准备工作;四是保持一个好心情。
现象学是现代西方哲学最重要的哲学思潮之一 ,对 2 0世纪的西方哲学和包括教育学在内的其他学科的发展产生了重大影响。现象学教育学在一些欧美国家获得发展并保持生机。现象
随着国民经济的发展,电力电子技术的也随之快速发展,电力电子设备得到广泛应用,这就使得电能质量和谐波污染问题变得越来越突出,从而受到广泛关注。有源电力滤波器(APF)是目前能
当前,受激拉曼散射(SRS)已经广泛地应用于激光变频技术。一方面,受激拉曼散射光具有宽光谱范围,将激光光谱范围扩大。另一方面,受激拉曼散射还具有脉宽窄,转换效率高,光束质
自1978年党的十一届三中全会起,以农村为起始的改革开放已走过30年。经过30年的发展,我国农村基层群众自治制度体系已基本确立,组织载体日益健全,内容不断丰富,形式更加多样,
胜任力的概念于20世纪70年代初期McClelland首次提出,它根源于行为主义心理学,是能够明确区别出优秀绩效执行者和一般绩效执行者的能力特征。胜任力研究成为当代心理学、人力
稀磁半导体材料由于具有优异的光电、磁电等性能,在自旋相关的光电子学、磁电子学领域具有很广泛的应用前景,这些优异的特性引起人们对稀磁半导体研究的广泛关注。目前在实验
流水线模数转换器因兼顾速度精度和功耗的有效折中,被广泛应用于消费电子、生物医疗电子、无线通信系统及雷达对抗等领域,然而流水线模数转换器性能受制于诸多非理想效应。高速
因父母外出务工,目前我国存在大量的留守儿童。由于家庭结构的不完整和亲子教育的缺失,留守儿童在一定时期内往往会出现各种适应不良问题或心理健康问题。自我提升对个体适应