论文部分内容阅读
随着Internet的迅猛发展,?络已经成为?个信息发布和消费的巨?平台。互联?具有快速传播和?泛覆盖的特性,对互联?舆情进?有效监控是必不可少的。由于?页固有的半结构性以及?量存在的与主题?关的噪声,研究如何从Web中抽取?们所需要的信息变得越来越重要。在?个聚焦于新闻、博客和论坛(它们都是很有代表性的信息传播渠道)的多通道爬?系统中,我们?临如下挑战:1)?量?站需要监控;2)?站有不同的结构和布局;3)?站会不定期改版。这些挑战促使我们提出?度?动化的Web信息抽取技术,以减少系统的扩展和维护成本。对于新闻、博客这种正?密集的?站,本?提出了?个模板?关的基于有效字符的内容抽取算法CEVC(Content Extraction via Valid Characters)。为了验证该?法,我们从知名的中?新闻和博客?站上任意爬取了部分?页,构成测试数据集进?实验。实验结果表明CEVC能达到平均95.8%的F1-measure,效果优于之前的算法CETR和CEPR,虽然抽取性能和CETD相当,但在预处理阶段依赖更?,适?性更强。对于典型的论坛?站,本?利?帖?中普遍存在的发帖时间信息,提出了?个论坛帖?抽取算法PEAN(Post Extraction via Anchor Nodes)。为了和同样利?发帖时间信息的帖?抽取算法MiBAT?较效果,我们从知名的中?论坛?站上采集?页进?实验。实验结果表明PEAN相?于MiBAT在召回率指标上有?幅度提升,平均94.7%的F1-measure也优于MiBAT。为了验证本?提出的信息抽取算法的实际效果,我们针对实际需求设计并实现了?个Web新闻采集系统。由于使?了模板?关的内容抽取算法,该爬?能够在较少??辅助的情况下爬取新的?站,??减少了系统扩展和维护的成本。实际系统的运?情况表明,模板?关的内容抽取算法对多通道爬?系统具有实际意义。