web文档性质分类的研究与应用

来源 :东北师范大学 | 被引量 : 0次 | 上传用户:motombo555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
WWW 是一个开放性的全球分布式网络,网上的资源没有统一的结构和管理,导致了信息查找和使用的困难。网页的自动分类可以在较大程度上消除网上信息杂乱的现象,并方便用户准确地定位所需的信息和分流信息,已成为一项具有较大实用价值的关键技术。同时,互联网络的发展对网络信息发现服务提出了更高的要求,仅按内容对网页进行分类的技术已不再适应人们的需要,因此需要开发适合我国国情的中文 Web 文档分类技术,更好地帮助用户使用和管理网络信息。本文就是针对以上情况对 Web 信息分类技术所进行的深入研究,在总结和分析文本分类技术和基于内容的 Web 文档分类技术的基础上,提出性质分类的新概念,并分析性质分类的意义、可行性、具体算法以及该技术在搜索引擎结果优化中的应用。主要研究内容包括:1.总结文本分类的过程和 Web 文档的结构特点,在此基础上阐述基于内容的 Web 文档分类算法,其中包括基于网页文本的分类、基于超链接的分类和基于查询目志的分类等,详细描述了 KNN 算法、SVM 算法、贝叶斯算法和决策树算法,并比较和分析各种分类方法的优缺点。2.提出 Web 文档性质分类的新概念,通过对大量网页的结构特点研究,分析该技术的可行性和必要性,并在文本分类和内容分类算法的基础上提出性质分类的具体算法,如基于超文本的分类、基于超链接的分类和基于文件格式的分类等等。3.比较内容分类和性质分类的相同点和不同点,如二者在意义、处理对象、算法思想、发展领域等方面基本相似,而在含义、具体过程、发展状况等方面则大不相同,通过比较有助于更好地理解和使用 Web 文档的内容分类算法和性质分类算法。4.提出并实现性质分类技术在搜索引擎结果优化中的应用,设计两种不同结构的搜索引擎结果分类代理:一种是基于查询优化的结果分类代理,另一种是基于结果优化的结果分类代理。并比较二者的优缺点,进而提出它们不同的应用范围。
其他文献
P2P计算是在Internet上实施网络计算的一种新模式。这种技术充分利用互联网和Web站点中的闲置资源,达到最大的资源共享和集成服务。现在以P2P技术为基础的企业信息系统正逐步
分布式安全是今后大型网络游戏、跨地区视频会议、P2P软件、即时通信软件等分布式应用日益关注的焦点。动态对等实体群(dynamicpeergroups)属于分布式系统的通讯结构之一,本文
消除噪声是图像处理中一个非常重要的预处理步骤,然而,噪声消除与边缘保持在实际当中构成了相对影响的一对矛盾.小波变换是近十几年来发展起来的一种新的信号处理工具,其多分
本文首先概述了网格技术的概念、特点和系统原理后,接着研究分析了计算网格中现在常见的几种资源查找方法。最后讨论了现有网格系统的资源调度设计,在对计算网格调度涉及的
  本文调研了一种图的数据挖掘的方法——Subdue系统使用的方法,该方法与我们的方法的目的都是挖掘子图结构,但是两者的思想是截然不同的。并且还对相关的数据挖掘知识做了详
  本文通过国际电子商务标准研究现状与趋势的分析,结合电子商务应用模式的发展,以构建第三方B2B电子商务平台为目标,研究和开发基于XML语言的电子商务技术标准集合——cnXML
近年来,随着计算机通信和网络技术的迅速发展,在交通管理、网络监控与安全、股票行情分析、电信数据管理、传感器网络查询等诸多领域产生了许多基于数据流的应用。因为这些应用
网格是近年来比较热门的一项技术,出现了如信息网格、资源网格、计算网格等诸多概念。网格建立在传统网络基础之上,但网格具有更开放、更可控的机制、因此可以对计算资源、存储
基于计算机的过程控制系统已经被广泛地应用,随着互联网技术的发展,互联网在控制领域表现出巨大的应用潜力。作为下一代控制系统的基础,基于互联网的过程控制系统的设计是控
主动激光视觉系统具有直接三维成像的特点,将其用于飞行器、汽车等移动装置完成避障、导航信息的获取,实现自动驾驶或辅助人工驾驶已引起人们的重视。论文中主要是针对主动激光