基于扩展网页和公平特征选择的网页分类算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:zhypku
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的不断发展,NTERNET上的信息日益丰富,已经成为人们同常工作和生活中获取信息的重要来源。但是,由于INTERNET所固有的开放性和异构性,用户很难从纷繁复杂的海量信息中准确定位到自己所需要的信息。 因此,如何合理和有效地组织和管理网上信息,已经日益成为信息处理领域一个十分重要的研究课题。传统的处理方式是依靠人工的方法对网页进行分类,即专业人员在浏览网页后,根据其内容将它划分到一个或多个类别中。然而,网页信息在不断地快速增长,仍然依靠人工的方式对大量的网页进行分类,将是不合适,也是难以实现的。为了使用户更容易更准确地定位所需要的信息,众多的学者开始研究网页自动分类技术。 自动文本分类是在给定的分类体系下,由特定的算法根据文本的内容确定与之相关联的类别。自动文本分类是人工智能技术和信息获取技术相结合的研究领域,是进行基于文本内容的自动信息处理的核心技术。本文对中文网页分类算法进行了研究,具体内容如下: 1、研究了中文网页分类的背景和难点。分析了中文文本分类的基本原理,对传统的特征选择和分类算法进行了分析,对比了传统特征提取方法的优缺点。 2、详细论述了对中文网页进行自动分类的主要问题。即网页的表示和网页的预处理。论述了网页预处理过程,包括网页的清洗和中文自动分词技术。 3、本文提出了一种将扩展网页和公平特征选择相结合的网页分类算法。考虑到超链接的重要性,通过建立扩展网页,增加了关键分类特征的比例和数量,从而提高了网页分类的准确率。考虑到网页结构的重要性,我们把锚点文本所在的句子或段落添加到原网页形成扩展网页。公平特征选择算法不仅可以公平的对待每个类,而且可以识别有效特征,降低特征空间的维度。 4、对本文提出的算法进行实验,并对实验结果评估。实验结果数据表明,本文提出的算法可以有效的提高网页分类的准确率和F值,是一种有效的网页分类算法。
其他文献