面向异步通讯机制的网页搜索技术研究

来源 :浙江工商大学 | 被引量 : 0次 | 上传用户:chxiang007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,信息化正在深刻的改变着世界的面貌和人们的生活方式。与此同时,互联网信息爆炸性的增长,使得人们如何快速准确地获取信息的问题日益突出。20世纪90年代,搜索引擎的出现和快速发展,很好的解决了海量信息搜集和检索的问题。21世纪初,随着WEB2.0概念和技术的出现和兴起,互联网进入了全民“织网”的新时代。作为WEB2.0技术基础的各种富客户端技术也随之得到了大范围的使用和推广。通过采用异步通讯技术,客户端与服务器端的交互将在后台以异步通讯的方式进行,客户将从枯燥的页面刷新以及漫长的服务器响应等待中解放出来,客户的请求将得到更快的响应,服务器端的压力将得到有效的缓解。本文系统的回顾了搜索引擎页面搜索的研究现状,分析了目前全文搜索引擎页面搜集和存储的工作原理,介绍了异步通讯技术的工作原理和优势,总结了在WEB2.0环境下,由于采用异步通讯机制而给搜索引擎所带来的问题,提出了一种面向异步通讯机制的网页搜集技术的实现方法。面向异步通讯机制的页面搜索技术研究旨在克服由于采用异步通讯技术而给搜索引擎所带来的新问题。由于目前全文搜索引擎的搜集器大多采用基于超链分析的算法,搜集器程序只分析页面的HTML代码部分,而忽略页面中脚本区域的代码。而异步通讯技术正是借助大量的脚本代码来实现的,大量的链接被隐藏在了页面的脚本代码中。因此需要对现有的搜索引擎的搜集器做适当的改进,使得搜集器程序可以分析页面脚本区域的代码,将其中的超链接取出。为此,本文提出了一种借助于脚本运行环境,利用Windows消息机制,通过系统模拟点击页面脚本函数的方法来提取超链接。同时,针对异步通讯机制所带来的服务器返回不完整页面的问题,采取了导入链接所属的源页面,通过局部刷新机制,存储刷新后页面的方法来解决信息不能直接存储的问题。最后展望了这一课题的后续工作。
其他文献
自然活动是指儿童亲近和纳悦自然的积极活动.本文提出在尊重幼儿天性的前提下,以亲自然活动为途径,让幼儿在与大自然接触的过程中获得丰富的经验积累和形成良好的学习品质,以
产业集群是指在某一产业中,内部有相互关联性的企业、专业化供应商、服务供应商、相关产业的厂商以及相关机构构成的群体在特定区域的集中。它对区域经济的发展和企业竞争力的
幼儿户外活动需要在教师的引导下,提高实践能力,激发孩子们的各种感官功能,增加幼儿对周围的事物和现象进行感知的机会.在适当的户外活动过程中,激发幼儿对生活的兴趣,提高孩
教务管理是高校管理工作的基础环节,教务管理信息化是教育现代化的重要组成部分,目前各高校都在积极推进教务管理系统的建设;相比传统高等教育,网络教育作为一种新型的办学形
在前几年我国的房地产投资热潮中,大部分房地产企业忽视了风险管理的重要性。近三年,国家出台了一系列宏观调控政策以规范房地产市场并促进其健康发展,严峻的风险问题摆在广大房