论文部分内容阅读
该文在研究和分析Internet上的半结构化数据标记技术、信息检索的数学模型为基础,以提高信息的查准率为目标,通过Web挖掘等新技术的引入,设计并实现了一种基于Web挖掘的专题性智能信息检索系统Web-Search.Web-Search包括的关键技术有:(1)针对Web 上数据半结构化的特点,通过提取HTML标记中反映网页内容和结构信息的重要信息,构建网页的标记树模型.该模型精确反映了HTML文档的标记间的结构和联系,而且标记树模型的结构可以直接从HTML文档中得到,因此Web 数据的半结构化形式的模式转换也比较直接.该模型的建立可以有效地帮助我们对网页信息进行深层次的挖掘.(2)在网页标记树模型的基础上,研究并实现了基于Web内容挖掘和结构挖掘的专题化智能Web爬行算法CA(C&S).该算法充分利用神经网络可以方便地模拟网络的拓扑结构和并行计算的特点.采用加强学习判断网页与主题的相关度.在进行相关度计算时,不考虑网页的全部内容,而通过提取网页的HTML描述中的重要标记,对Web网页进行内容和结构分析,判断出爬行到的网页与主题的相关性,从而大大提高了信息收集的效率和准确性.(3)分析了Web所包含的大量超链接结构信息,对依赖于查询的网页排序算法(HITS)进行了改进.在此基础上,实现了一种基于Web内容和结构挖掘的综合相关度排序算法――modiHITS.该算法的实现,大大改善了当前搜索引擎返回结果的相关度排序状况,可以使用户快速、方便地得到所需信息.(4)利用用户的注册信息、客户机浏览器上的Cookie信息、Web检索服务器上的用户访问日志信息、Web检索服务器上的用户访问日志信息(如查询关键词、被点击的URL等)分析用户行为、建立用户兴趣模型,并将用户感兴趣的信息过滤之后主动推送给用户.该技术应于搜索引擎的设计,可以大大提高系统的查询速度和服务质量.