基于Web挖掘的专题性智能信息搜索工具关键技术研究

来源 :北京科技大学 | 被引量 : 0次 | 上传用户:tanya_33
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文在研究和分析Internet上的半结构化数据标记技术、信息检索的数学模型为基础,以提高信息的查准率为目标,通过Web挖掘等新技术的引入,设计并实现了一种基于Web挖掘的专题性智能信息检索系统Web-Search.Web-Search包括的关键技术有:(1)针对Web 上数据半结构化的特点,通过提取HTML标记中反映网页内容和结构信息的重要信息,构建网页的标记树模型.该模型精确反映了HTML文档的标记间的结构和联系,而且标记树模型的结构可以直接从HTML文档中得到,因此Web 数据的半结构化形式的模式转换也比较直接.该模型的建立可以有效地帮助我们对网页信息进行深层次的挖掘.(2)在网页标记树模型的基础上,研究并实现了基于Web内容挖掘和结构挖掘的专题化智能Web爬行算法CA(C&S).该算法充分利用神经网络可以方便地模拟网络的拓扑结构和并行计算的特点.采用加强学习判断网页与主题的相关度.在进行相关度计算时,不考虑网页的全部内容,而通过提取网页的HTML描述中的重要标记,对Web网页进行内容和结构分析,判断出爬行到的网页与主题的相关性,从而大大提高了信息收集的效率和准确性.(3)分析了Web所包含的大量超链接结构信息,对依赖于查询的网页排序算法(HITS)进行了改进.在此基础上,实现了一种基于Web内容和结构挖掘的综合相关度排序算法――modiHITS.该算法的实现,大大改善了当前搜索引擎返回结果的相关度排序状况,可以使用户快速、方便地得到所需信息.(4)利用用户的注册信息、客户机浏览器上的Cookie信息、Web检索服务器上的用户访问日志信息、Web检索服务器上的用户访问日志信息(如查询关键词、被点击的URL等)分析用户行为、建立用户兴趣模型,并将用户感兴趣的信息过滤之后主动推送给用户.该技术应于搜索引擎的设计,可以大大提高系统的查询速度和服务质量.
其他文献
该文深入研究了混合系统的稳定性(李雅普诺夫意义下的稳定性、双测渡稳定性),可控性,可观测性,鲁棒镇定性,脉冲控制及最优化,时滞问题等,并对混合系统在经济领域的应用作了探
该文以上海市科委重点基金项目"神经元回路信号测量及信息提取"为背景,开展了视网膜神经节细胞电活动的检测和信号分类研究.视网膜研究的目的之一在于了解视觉信息是如何在视
网络技术的发展,引发了控制领域的深刻技术变革。控制系统结构沿着网络化方向与控制系统体系沿着开放性方向发展将是控制系统技术创新的大潮流,信息集成系统由此应运而生。在系
所谓图像超分辨率重构,是指由一幅或几幅低分辨率图像获得一幅高分辨率图像的过程.一般地,低分辨率图像可以看成高分辨率图像经过模糊和亚采样后的结果,因而图像的超分辨率重
流媒体技术的迅速发展,为在大范围内的多媒体传输打下了坚实基础.最近几年,随着机顶盒应用(Set-Top Box)的普及,关于视频点播(Video on Demand)中流量控制的研究越来越多.由
在Internet技术发展的长河里,Web是一颗璀璨的明珠。在很短的几年内Web技术成为Internet的主流技术,而基于Web的应用在Internet中已经完全占据了主导地位。随着Web技术的进一步
随着电力系统的发展,电力调度系统的多个自动化子系统之间实现集成和信息交换是大势所趋。本文正是针对这一问题展开研究和实践的,力图实现电力调度通信中心各个系统的集成和数
本文研究的主题就是在Philips公司的TM1300 DSP上实现MPEG-4的视频编码压缩,并对编码进行优化处理,提高压缩效率。由于TM1300 DSP有别于一般的通用DSP,它有专门的视频接口、音频
随着网络应用需求日益朝着高性能、大规模、多样性的方向发展,对Internet网络提出了更高的分布式要求:需要这种以用户为中心的网络具有自扩充性、可移动性、可生存性、简单易操
近些年,在浮空器领域的研究中,平流层飞艇受到诸多关注,它是一种运行于大气平流层底部区域的浮空器。平流层飞艇可以作为高空监测和通讯平台,在区域大气环境监测、高分辨率实时监