垂直搜索引擎中的主题爬虫技术研究

被引量 : 13次 | 上传用户:cnars
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅猛发展,网络上的信息呈现爆发式的增长。通用搜索引擎已经不能满足人们对于个性化信息的需求,此时,面向特定领域的垂直搜索引擎应运而生。垂直搜索引擎可以满足特定领域、人群的特定需求,能够为用户提供高质量、个性化的信息。主题爬虫是垂直搜索引擎中的重要组成部分。主题爬虫是根据用户定制的主题,智能的爬行网络上的主题相关资源,过滤主题无关资源,为垂直搜索引擎提供了数据来源。本文分析了主题爬虫的系统结构、技术原理,重点讨论了爬虫的主题表达、页面的主题相关性分析和主题搜索算法。本文的主要研究工作如下:1)在主题表达方面,基于关键词集合的主题表达不全面、精度不高,对此,本文提出了一种基于关键词动态扩充的表示方法。首先,需要构建一个基本的关键词集合;其次,本文提出了一种基于位置的TF-IDF(Term Frequency-Inverse Document Frequency)加权算法,根据文本在网页中的位置进行加权,可以提取网页的特征词;最后,在爬虫爬行的过程中,利用页面与主题的相似度和单词匹配频率等信息扩充特征词到主题库集合中,进而提升主题表达精度和覆盖面。2)本文分析了Shark Search搜索算法,针对该算法在有些方面的不足进行了改进。在Shark Search算法中,主题爬行策略采用的是链接上下文信息,但是,网页中的链接上下文信息经常充斥着噪音,反而会干扰链接的预测。本文提出利用URL字符本身的信息来替代链接上下文信息。因为URL字符串能代表其指向的网页内容,本文通过分析URL字符串的结构,得到一些启发式信息,利用这些信息可以将URL字符串“翻译”为可识别的文本信息,有利于计算它们与主题的相似度。此外,Shark Search算法是贪婪的,因此,很难在Web图中找到全局最优解,本文引入了隧道分析技术来解决Shark Search算法的贪婪性问题。本文综合基于关键词动态扩充的主题爬行算法和改进的Shark Search算法,将主题表示和主题预测结合起来,从整个系统的角度来提高爬虫的性能。经过实验证明,主题爬虫在精度和召回率上上都有提高,由此说明,本文的方法是有效的。
其他文献
市场经济条件下,高校图书馆文化表现出了多种特征与功能:即方向性特征与引导功能、多载体特征与信息功能、高素质特征与教育功能、高层次特征与创造功能、自动化特征与服务功
介绍了上海电网实施线损精细化管理通过信息化技术实现实时线损计算,将线损管理从统计分析转变为线损监控的背景及技术手段,实现了线损管理的自动化和智能化。阐述了线损精细
针对隧道新奥法施工的特点,结合重庆南川地段水界高速公路龙凤山隧道工程,阐述监控量测技术在隧道新奥法施工中的应用及其效果.在其采用上下台阶法施工围岩周边收敛位移量和
随着我国汽车保有量的大幅增长,随之带来的汽车尾气污染越来越严重。为了减少汽车尾气污染,满足越来越严格的汽车排放法规,减少冷起动过程尾气的排放是关键。本文通过对沸石
目的探讨无痛肠镜检查的安全隐患及处理对策。方法选择936例无痛结肠镜检查患者,其中815例出现了不良反应,分析其术中、术后的不良反应及采取的对策。结果术中注射局部疼痛27
倒金字塔结构,这是一种新闻写作方法,就是把最重要的信息放在最前面,次要的放在后面。这种写作方法的出现据说与电报有关,在美国南北战争时期,战地新闻记者开始用电报发新闻,而电报
国家文化软实力建设理论具有与时俱进的理论品质,它不是僵化的体系而是一个开放发展的体系。马克思主义是国家文化软实力文建设的理论渊源,毛泽东思想、邓小平理论、“三个代表
河南省水旱灾害十分频繁。本文在1450年-1979年分区历史水旱灾年频率计算的基础上,结合由1980年-2009年数据得到的降雨量距平百分率旱年频次,以及由多年(1980年-2010年)平均
民俗是中国传统文化的重要组成部分,是一个国家和民族文化的标志,最能体现一个国家和民族的精神内核,研究民俗对一个国家和民族文化的发展和繁荣至关重要。在影视产生之前,民俗的
二十世纪中叶以来,审美文化领域呈现多元发展的态势,而丑日益在各个文化领域彰显出它的魅力,从边缘向中心发展。其实美学原本就是感性学,它不仅是包含美这个范畴的学科,还包括各种