网页分类及存储查询系统的设计及实现

来源 :燕山大学 | 被引量 : 0次 | 上传用户:LIKE0610
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的高速发展,Internet上的Web页面数量呈指数增长。有效地组织和处理这些海量信息,为人们创建一个绿色的网络交流环境已经成为网络信息服务需解决的关键问题之一。网页自动分类是处理海量网页的有效手段,它能提供网页集的良好组织结构,简化网页的存取和操作,提高网页处理效率。因此,研究如何对网页进行高效准确的分类,并将网页分类结果进行永久保存将有着重要的意义。首先,本文对系统进行了需求分析,对网页分类和存储查询两个模块,分别从原理和过程出发进行了系统的总体分析。详细研究了文本自动分类技术和网页分类的一般过程,并对网页分类评价体系进行了描述。其次,本文详细分析了系统各模块所需的技术和方法,主要包括文本表示模型、网页信息提取和分词算法等,分析比较了几种特征提取算法并提出了特征权重算法的改进策略。针对网页分类结果的存储查询需求,提出了增量存储和反馈查询的策略,有效地节省了存储空间,便于用户查询,同时弥补了网页收集范围的局限性。鉴于存储查询过程中的URL规范化需求,提出了一种基于有限状态机的URL解析方法,有效地提高了解析的效率和容错性能。最后,本文通过对网页分类和存储查询技术的研究,提出了网页自动分类和存储查询系统各模块的设计方法,并通过程序设计语言来实现,最后进行测试和验证,测试结果表明,系统能够有比较高的分类准确率,达到设计的要求。
其他文献
本文通过对荣华二采区10
期刊
波达方向估计是阵列信号处理的重要内容之一,随着通信技术和数字信号的发展,使得它在许多领域具有广泛而重要的应用价值。为了提高算法的性能,前人提出很多算法的改进。但是
华北大黑鳃金龟[Holotrichia oblita(Falderman)]是难以防治的地下害虫,给农作物造成严重的损失。苏云金芽胞杆菌(Bacillus thuringiensis,Bt)是一种已被广泛用于农业害虫防