面向多通道爬虫的Web信息抽取技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:Ghost_D
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅猛发展,?络已经成为?个信息发布和消费的巨?平台。互联?具有快速传播和?泛覆盖的特性,对互联?舆情进?有效监控是必不可少的。由于?页固有的半结构性以及?量存在的与主题?关的噪声,研究如何从Web中抽取?们所需要的信息变得越来越重要。在?个聚焦于新闻、博客和论坛(它们都是很有代表性的信息传播渠道)的多通道爬?系统中,我们?临如下挑战:1)?量?站需要监控;2)?站有不同的结构和布局;3)?站会不定期改版。这些挑战促使我们提出?度?动化的Web信息抽取技术,以减少系统的扩展和维护成本。对于新闻、博客这种正?密集的?站,本?提出了?个模板?关的基于有效字符的内容抽取算法CEVC(Content Extraction via Valid Characters)。为了验证该?法,我们从知名的中?新闻和博客?站上任意爬取了部分?页,构成测试数据集进?实验。实验结果表明CEVC能达到平均95.8%的F1-measure,效果优于之前的算法CETR和CEPR,虽然抽取性能和CETD相当,但在预处理阶段依赖更?,适?性更强。对于典型的论坛?站,本?利?帖?中普遍存在的发帖时间信息,提出了?个论坛帖?抽取算法PEAN(Post Extraction via Anchor Nodes)。为了和同样利?发帖时间信息的帖?抽取算法MiBAT?较效果,我们从知名的中?论坛?站上采集?页进?实验。实验结果表明PEAN相?于MiBAT在召回率指标上有?幅度提升,平均94.7%的F1-measure也优于MiBAT。为了验证本?提出的信息抽取算法的实际效果,我们针对实际需求设计并实现了?个Web新闻采集系统。由于使?了模板?关的内容抽取算法,该爬?能够在较少??辅助的情况下爬取新的?站,??减少了系统扩展和维护的成本。实际系统的运?情况表明,模板?关的内容抽取算法对多通道爬?系统具有实际意义。
其他文献
如今越来越多的业务过程由显示过程模型驱动的信息系统进行控制和管理,无数的过程工程、过程建模和过程实现的方法也随之出现。该领域内众多的技术生动地说明了以业务过程为主
图像置乱是图像加密方式的一种,有着多种用途,包括信息隐藏、水印保护等。随着用户隐私保护意识的增强,人们更加关注的是图像置乱后是否能达到好的加密效果,因此,图像置乱度
图像配准是图像融合、图像分析、图像重建的基础,尤其在医学图像处理领域,图像配准发挥着重要的作用,高效准确的配准方法可以辅助医生进行医疗诊断,制定手术计划,跟踪病人的
无线传感器网络通常用于对监测区域内的各种环境或对象进行信息采集并传送到基站处理,其中数据收集在此过程中占有重要的地位。很多数据收集应用都位于人不可到达或环境恶劣的
随着网络的飞速发展,我们需要应对的网络安全问题也越来越多。诸如数字签名、访问控制、防火墙等的传统网络安全技术己不能很好地满足目前网络安全的需求。入侵检测系统作为一
视频中的文字包含了丰富的语义信息,文字提取对于基于视频内容的分析、检索等研究领域具有重要作用。如果能自动地将视频文字检测、分割、识别出来,则对视频高层语义的自动理
随着网络技术的高速发展,网络服务在社会生活的各个领域发挥越来越重要的作用。网络技术、网络服务在带来了巨大便利的同时,也带来了前所未有的安全性威胁。密码学作为保证信息
作为Web2.0时代的重要元素,博客以极快的速度融入到人们的日常生活之中。博客能成为互联网上人与人之间重要的交流方式,与其读者可以方便、快捷地在博客上发表评论的特征是密不
自从Willsky在1976年发表第一篇故障诊断方面的综述文章后,故障诊断技术便蓬勃发展起来。随着嵌入式技术的不断成熟与发展,嵌入式控制系统已经越来越广泛地应用于工业生产的
随着统计自然语言处理的出现,在文本处理领域,我们需要将自然语言描述的文本转换为一种可计算的数据结构。如经常使用向量来表示一个词,向量在某个维度上的值表示了词在某一