【摘 要】
:
互联网中,用户对信息的需求往往是针对某个领域和面向特定主题的,在这些方面传统搜索引擎的召回率和精确率都不能令人满意。面向主题的垂直搜索引擎的目的是提供分类精确、数
论文部分内容阅读
互联网中,用户对信息的需求往往是针对某个领域和面向特定主题的,在这些方面传统搜索引擎的召回率和精确率都不能令人满意。面向主题的垂直搜索引擎的目的是提供分类精确、数据全面、更新及时的搜索服务,在满足用户个性化需求方面有独特的优势。在性能卓越的搜索引擎背后,都有强大的网络爬虫做后盾,它的性能直接影响搜索引擎的查全率、查准率。聚焦爬虫在传统爬虫的基础上实现了对web页面的主题相关度的计算和链接的主题相关度评价。聚焦爬虫作为当前的研究热点之一,由于人类语言概念的模糊、多义性,网络信息资源的半结构化特性,使得在主题判断与评价、自然语言理解、隧道穿越方面存在一些公认的难题。本文提出了一种可定制的聚焦网络爬虫(Customizable FocusedCrawler,CFC),主要内容有:(1)研究并实现了主题的定制算法。在用户和计算机交流的基础上,采用基于向量空间模型的方法描述用户主题信息,让计算机更好地理解和表达用户的兴趣。(2)实现了Ajax页面的解析。web2.0已成为互联网的主流技术,越来越多的页面采用Ajax技术,对于这样的页面,浏览器中丰富的文字信息没有在HTML源文件中出现,因此实现Ajax页面的解析势必能提高爬虫的查全率。本文主要针对在页面加载函数中出现的Ajax操作进行处理。(3)对于隧道穿越,本文提出了简单有效的宽容算法。此算法模仿人的行为特征,在遇到主题不相关页面或链接时并不立即的抛弃,而是根据宽容阀值的大小,试探性的包容当前不相关的链接。(4)研究与实现了基于链接价值的搜索策略。在此方法中利用了基于链接结构和内容的评价方法,综合考虑链接的主题性和权威性来决定链接在队列中的排名。
其他文献
信息粒度广泛存在于现实世界中,是对现实的抽象。粒度计算即信息的粒化处理,是信息处理的一种新的概念,覆盖了所有有关粒度的理论、方法和技术的研究,是模糊集理论、词计算理论、
知识管理有利于提高企业产品开发、制造、销售及服务的质量和效率。知识管理通常包括知识获取、知识评价、知识重用、知识修改及更新等流程或者活动。知识管理系统是辅助企业
随着互联网技术的发展,在线中文网页的数量迅速增加,互联网上的信息量越来越大。搜索引擎能够有效地组织和分析海量的信息资源,帮助用户迅速地获取所需要的知识和信息。然而
在供应链管理模式下,单个企业之间的竞争变成了企业所在供应链之间的竞争。供应链的构建中最重要的一个环节就是评价选择供应商。从长期发展来看,核心企业应选择能保持较高的
虚拟植物生长可视化在现代农林生态研究中具有重要意义,而植物的形态发生模型和生理生态模型及其结合方式是本研究中的核心问题。论文首先在改进Open L系统的基础上,提出了植
根据移动自组网的特点,在无线通信带宽极其受限的情况下,采用组播技术实现多方通信可以节省带宽、减少网络开销,设计有效的组播路由协议是移动自组织网研究领域的重要内容之一。
随着网络技术和应用的快速发展,网络中所产生的数据也急剧增长,相应的数据存储技术和应用技术也得到快速发展,特别是云计算相关技术和数据挖掘技术的发展。云计算技术的应用
如今,网络上存在着大量的异构数据源,其中包含有海量的文本数据(FlatText),关系数据,以及XML等半格式化数据.这些数据源往往表达着相似甚至相同的语义,但彼此之间却是异构的.
本文主要探讨基于XML的电子表格文档格式转换技术。由于XML语言具有开放、可扩展等特点,越来越多的文档格式开始采用XML语言描述,其中包括UOF和Open XML。为保证文档的安全性和
本文提出了一个应用于无线传感器网络的定位算法。该定位算法具有可扩展、分布式和距离无关等特点。在无线传感器网络中,位置信息对无线传感器网络的应用至关重要。高精度、低