网页分块相关论文
随着网络的发展和Web资源的丰富,利用Web全文信息检索系统来获取所需信息已经成为人们日常生活的重要组成部分,用户也越来越关注如......
互联网已经成为目前最为重要的广告媒介之一,它能够以低成本将商品和服务向全世界的各个角落展示,这种独特能力吸引了众多的网络广告......
搜索引擎是人们获取海量网络信息的首要工具,是网络研究和应用的关键内容。目前随着Internet信息的爆炸增长以及信息多元化的发展,......
伴随着Web2.0技术的发展,作为一种典型的用户创建内容的应用,网络论坛在全世界非常流行。每天有无数个针对能够想象到的所有话题或......
搜索引擎解决了网上查找信息难的问题。随着网络信息指数级增长以及行业分工不断加大,针对专业领域的信息搜索在精度和深度方面要......
21世纪是网络的世纪,网络已经完全融入了人们的学习、工作和生活。随着Internet技术的高速发展,Web已经成为人们获取信息的一个重......
Web内容越来越丰富、复杂,在面对精确的、个性化的用户需求,与移动设备小屏幕不能显示有太多内容的网页,传统地把整个页面作为一个基......
现有的搜索引擎都是对整个页面建立索引并用于检索的,但某些页面中可能包含不同的主题块,如果用户提交的多个关键词恰好分别位于不......
随着互联网资源的迅速增长和信息环境的日益复杂,追求高网络覆盖率的通用搜索引擎己无法满足用户更专业更精确的查询需求,因此,面向主......
学位
随着互联网时代的来临,Web已经成为世界上最大的信息源,给人们生活带来了极大的方便。但是Web在给人们提供丰富信息的同时,又使人......
随着网络上信息的爆炸式增长,普通搜索引擎的查询结果越来越不能满足用户查询的需要,尤其是那些查询特定信息的不同领域、不同背景......
随着互联网技术的飞速发展,传统的通用搜索引擎逐渐暴露出了覆盖率低、结果不准确等弊端。为了满足用户精确搜索的需求,垂直搜索引擎......
钓鱼网站检测已经形成钓鱼攻击和钓鱼检测相互博弈的局面。钓鱼检测的方向和技术因为钓鱼攻击技术的不断升级,需要寻求新的角度。......
随着智能手机和移动设备的普及,移动用户对于手机浏览和阅读的需求不断增加,移动化已成为一个不可避免的趋势。与此同时,原有的面......
随着互联网技术的飞速发展,Web信息呈现出指数级的增长,WWW中蕴含了海量的信息可供我们利用。但是,人们想要获取一条需要的信息就......
近年来,伴随着互联网的快速发展产生了海量的信息,Web页面呈现多样性和异构性等特点。此外,目前的Web页面结构比较复杂,在同一个页面上......
本文针对目前互联网上科技信息需要定向追踪的需求,利用基于Web的信息采集技术,设计科技信息采集系统的系统框架,并对其中的网页分块......
在已有的基于Dom—Tree的网页信息提取算法基础上,通过对Html标签进行分类,逐个分析各Html标签所包含的结构信息,设计了一种自底向上......
本文提出了一个基于网页分块的信息采集系统模型。在页面分析阶段,引入了改进的基于视觉的页面分块方法,这是一种自顶向下的、标签树......
针对当前新闻网页主题内容抽取方法较少利用网页块之间关联特性这一问题,提出了一种基于条件随机场(CRFs)的新闻网页主题内容自动抽......
垂直检索系统中主题爬虫的性能对整个系统至关重要。在设计主题爬虫时需要解决两个问题:一是计算当前页面与给定主题的相关度,二是......
对互联网上大量存在的基于模板的网页,根据其半结构化的特点,提出了一种网页分块和主题信息自动提取算法.该算法利用网页标记对网......
PageRank是一种典型的搜索结果排序算法。本文首先分析了PageRank算法的工作原理及网页分块的基本思想;然后研究了一种基于VIPS分......
期刊
根据网页文本信息的结构和内容特征,提出一种网页主题文本信息的抽取策略,将网页文档表示为DOM标签树的形式,然后根据Web页面的结构特......
每个网页都包含了大量的超链接,其中既包含了相关链接,也包含了大量噪声链接。提出了一种基于链接分块的相关链接提取方法。首先,将网......
展开了对互联网搜索引擎结果集的智能排序研究,提出了一种基于扩展网页质量和VIPS分块算法的智能网页排序算法,并对结果进行净化处理......
针对目前通用搜索引擎搜索到的结果过多、与主题相关性不强的现状,提出一种基于网页分块技术的主题爬行器实现方法,并实现了一个原型......
目前,搜索引擎以整张网页作为最小处理单位进行排序处理,容易受到噪音信息的干扰.针对存在的问题,提出用网页分块对网页净化,进而......
针对Web信息抽取主要依据内容进行抽取的思想,通过对基于本体的Web信息抽取技术的分析,在对网页进行预处理的过程中引入网页分块思......
由于网络环境的复杂性和网页内容的多主题性,要想得到更多的特定主题相关网页,就要穿越那些主题不相关网页来获取更多的主题相关网页......
网页中存在正文信息以及与正文无关的信息,无关信息的存在对Web页面的分类、存储及检索等带来负面的影响。为降低无关信息的影响,从......
网络信息时代的到来使得网络中的信息量呈指数增长,由此研究如何从网页中高效地提取出有用信息成为网络信息检索领域中的重要课题......
不同的浏览器对于相同网页的解释会有差异,在对跨浏览器兼容性测试时通常需要对网页进行分块,而网页的不兼容性对于用户来说往往需......
搜索引擎中用户查询和网页资源之间的相似度研究一直是页面排序的研究核心。利用 HowNet 对词语的语义层次架构模型,对用户的检索词......
网页主题爬取过程中,需要计算网页中出现的url权重,不断填充待爬行队列,以满足爬行条件,如何发现与主题最相关的链接,同时又不会导......
针对目前互联网信息资源广泛、网页结构复杂、噪音信息较多的现状,主题爬虫获取有效信息过程中精确度低、耗费时间长等问题。结合......
针对传统主题爬行策略的不足和局限性,提出一种基于维基百科(Wikipedia)和网页分块的主题爬行策略,通过Wikipedia的主题分类树和主......
详细介绍了网页信息解析的基本技术手段,在综合权衡优缺点的基础上,提出了针对新 闻网站复杂结构页面较为有效的分块算法,并结合......
网页分块方法使得Web信息抽取的单位由页面缩小为块。文中研究了网页分块的主要方法与基于学习的分块重要性模型,对Xpath的Web抽取......
网页文本抽取是一种在互联网上运用广泛的数据挖掘技术,主要目的是把一个网页的主题内容抽取出来,为Web数据挖掘提供好的基础数据。......
移动手持设备因其屏幕小,有限的计算及存储能力而不便浏览普通Web页面;另一方面,对于PDA、手机用户,本着用户个性定制以及降低费用的原......
随着互联网的蓬勃发展,Web中每天都会产生大量的网页,这些网页内容千差万别。面对海量的Web网页信息资源,搜索引擎作为信息获取的......
本篇论文以去除网页噪声,整合网页内容为目标,提出了面向主题型网页,根据网页规划布局抽取网页内容的方法。算法首先分析原始网页的DO......
网页分块方法使得Web信息抽取的单位由原来的页面缩小为分块.结合分块重要度模型与二维条件随机场的优点,提出一种Web对象信息抽取方......
在分析传统网络爬行器爬行算法的基础上,通过将隧道算法和网页页面分块技术相结合,指导专题爬行器进行爬行。通过4所高校门户网站的......
互联网是世界上最丰富和最密集的信息来源,近年来随着网络信息爆炸式的增长,Web新闻网页信息已成为人们获取信息的主要渠道。如何在......
互联网已经成为人们生活中重要的信息来源,在网络信息快速增长的情况下,如何从海量的信息中找到用户所要的信息是一个很大的挑战。......