基于网页结构聚类的Web信息提取技术研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:one_tester
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web已经成为世界上最大,类型最齐全的海量信息库。面对不断增长的网页数据,急需解决的问题是如何获取其中有价值的信息或者是所感兴趣的信息。Web最常用的描述语言是HTML,这种方式呈现的页面大都是结构化或半结构化,数据由数据库提供,网站动态生成,同一模板的网页的主题信息提取方式大致相同。针对这种Web页面的特点,本文提出了一种基于网页结构聚类的Web信息提取方法,并设计了基于该方法的原型系统。系统能够将网页按照结构的相似性分类,并且可以方便快捷的生成同类网页提取规则,依靠生成的规则能准确提取结构相似网页的信息。系统分为3个模块:(1)网页下载模块,实现高效的网络爬虫采集网页;(2)规则学习模块,将网页聚类,对不同类网页生成不同提取规则;(3)信息提取模块,按照网页所属类别使用相应的提取规则提取网页信息。本文首先研究了网页的结构,并用DOM (Document Object Model)模型将网页表示成树形结构。基于网页的树形结构,分析了网页结构的相似性计算方法。提出了一种改进的基于树路径匹配的网页结构相似度计算方法,并且比较了该算法与树编辑距离和树路径匹配算法的优劣。对网页聚类采用层次聚类算法,在网页结构相似度的基础上,对网页按结构进行归类。然后,研究网络爬虫技术和网页预处理技术包括网页DOM模型、网页清洗、和网页结构图形化显示。最后,研究了提取规则的表示方法,采用XPath来定位代提取节点和XSLT来描述提取规则。本文以多个动态网站的网页作为数据集,通过实验证明了网页结构聚类的准确率和本文的信息提取方法的高精度。
其他文献
为了研究刚性、半刚性、柔性3种边界对试验结果的影响,使用河海大学TSW-40型真三轴仪对粗粒土试样进行保持水平向应力不变、竖直向应力增加的单向加荷试验。结果表明:对高宽
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
PPP项目具有投资额巨大、项目周期长、参与方众多等特点,因此在整个项目生命周期内都存在诸多的风险,如何对这些风险进行分析并构建合理的风险分担体系将成为决定项目成功与
预应力混凝土桥梁在服役过程中,由于受到结构自重、车辆荷载、冲击荷载、疲劳、温度等荷载作用以及碳化、氯离子侵蚀等环境作用和混凝土开裂等材料损伤因素的影响,难以避免的
脓毒症和脓毒性休克常导致多器官功能障碍,危及生命。心房颤动是脓毒症和脓毒性休克患者最常出现的临床表现之一,其发生可能与炎性反应、自主神经功能障碍、基础疾病、内毒素
生命周期理念,在与建筑和建设部门的关系中,特别应该进行建筑产品分析.在提高建筑物能源效率并为经济繁荣有所贡献的时候,这些产品发挥着基本的作用.已经做出的概算披露,在从