论文部分内容阅读
随着信息技术的高速发展,Internet上的Web页面数量呈指数增长。有效地组织和处理这些海量信息,为人们创建一个绿色的网络交流环境已经成为网络信息服务需解决的关键问题之一。网页自动分类是处理海量网页的有效手段,它能提供网页集的良好组织结构,简化网页的存取和操作,提高网页处理效率。因此,研究如何对网页进行高效准确的分类,并将网页分类结果进行永久保存将有着重要的意义。首先,本文对系统进行了需求分析,对网页分类和存储查询两个模块,分别从原理和过程出发进行了系统的总体分析。详细研究了文本自动分类技术和网页分类的一般过程,并对网页分类评价体系进行了描述。其次,本文详细分析了系统各模块所需的技术和方法,主要包括文本表示模型、网页信息提取和分词算法等,分析比较了几种特征提取算法并提出了特征权重算法的改进策略。针对网页分类结果的存储查询需求,提出了增量存储和反馈查询的策略,有效地节省了存储空间,便于用户查询,同时弥补了网页收集范围的局限性。鉴于存储查询过程中的URL规范化需求,提出了一种基于有限状态机的URL解析方法,有效地提高了解析的效率和容错性能。最后,本文通过对网页分类和存储查询技术的研究,提出了网页自动分类和存储查询系统各模块的设计方法,并通过程序设计语言来实现,最后进行测试和验证,测试结果表明,系统能够有比较高的分类准确率,达到设计的要求。