【摘 要】
:
目前Web已经发展成为一个巨大的、分布和共享的信息资源,但目前Web数据大多以HTML形式出现,其特点使得应用程序无法直接利用Web上的海量信息。针对这一问题,出现了Web信息抽
论文部分内容阅读
目前Web已经发展成为一个巨大的、分布和共享的信息资源,但目前Web数据大多以HTML形式出现,其特点使得应用程序无法直接利用Web上的海量信息。针对这一问题,出现了Web信息抽取技术。本文在论述了半结构化Web信息抽取技术总体解决方案的基础上,着重研究了Web信息抽取的实现技术以及ETL脚本语言的实现过程。在Web信息抽取的实现部分,提出了抽取规则执行算法,该算法首先获取抽取规则指定的Web页面,并且利用HTML Tidy将其转换为格式良好的XML文档,然后利用XMLParser将该XML文档转化为DOM树,根据XPath表达式获取感兴趣数据,并将其映射到目的模式,这一过程的执行是根据已定义的映射规则来完成的;研究了ETL脚本语言的实现技术,完成了ETL的核心执行模块,即抽取器和转换器,这两个模块接收ETL脚本,对脚本进行解析、执行,完成脚本定义的抽取转换任务。论文工作实现了Web信息抽取技术和ETL技术的集成,利用ETL的抽取转换功能,使得从Web上抽取的信息更加符合用户需求,为充分利用Web上的海量数据提供了一种有价值的工具。
其他文献
这是一项关于新消费者特征的探索性研究。本研究选取了营销传播学的边缘领域,以课题小组的形式,在四川成都地区随机调查了18岁(1985年出生)至35岁(1968年出生)的新消费者200份
企业并购已成为我国深化企业改革、调整经济结构和盘活资产存量的主要手段。企业并购成功与否,资金问题已成为一个制约瓶颈,并且,不同的融资方式、融资数量的多少、成本的高低、
本文在“数字福建”电子政务网络平台的背景下,系统地讨论了网络信息安全的现状及通常采用的保护技术,阐述了现有的网络安全扫描软件的工作原理并指出它们的一些发展方向,说明了
利用傅里叶变换红外光谱仪、激光共焦显微拉曼光谱仪和TGA Q500热分析仪对生物油蒸馏残渣及其在不同温度处理后的热解焦炭理化性质进行表征,并对其热失重特性进行分析。结果
数据挖掘技术是近年来数据库和人工智能领域研究的热点课题,目前在很多领域已有研究,但在公安工作的研究中尚处于空白,如何将数据挖掘技术应用于公安工作,是本文研究的重点。
随着全球化竞争的日益加剧,商业秘密泄露事件频频发生,保护商业秘密等非公开性知识产权已成为关注的热点。完善商业秘密保护立法、强化司法保护手段,对维护我国企业的国际经济利
湘西苗族是一个热爱生活、能歌善舞的民族。苗族歌乐,是苗族人民语言艺术的珍品,同其它民歌一样,是劳动人民在长期生活、生产和斗争中创造出来的口头文学。历史上,苗族人民受压迫
国际生态旅游学会已经采取了一套标准化措施进行生态旅游指导方针的开发.本文介绍了生态旅游标准的基本概念;生态旅游市场定位之演变;与生态旅游相关的官方政策;以及为当地居
目的:评估循环肿瘤细胞(circulating tumor cell,CTC)在预测乳腺癌患者预后中的作用。方法:检索Medline、Embase、中国数字化期刊全文数据库(CNKI)、万方数据库及维普全文网中国内外
本文通过对澳柯玛烟台购物中心的实地考察,对澳柯玛烟台购物中心的市场战略进行分析论证。文中介绍了国外Shopping Mall的发展规律、经营模式、主要类型、经营规模等,以及国内S