基于XML的Web信息抽取研究与实现

被引量 : 0次 | 上传用户:zyy_2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展以及Web数据的日益庞大,用户从Web中获取有用信息变得日益困难,如何快速有效地从Web中准确寻找信息已经成为亟待解决的问题,Web信息抽取技术应运而生。从网页中抽取信息的程序叫包装器(Wrapper),构建包装器的主要任务是编写抽取规则,因此,编写健壮灵活的抽取规则成为信息抽取的研究重点。针对Web信息抽取,人们已经提出了各种包装器构造方法,但这些方法都有其应用的局限性。随着XML技术的不断发展,XML在Web信息抽取中的应用价值日益凸现。本文在研究现有的Web信息抽取技术的基础上,把标准的XML技术运用于Web信息抽取中,提出了一种基于XML的通用Web信息抽取解决方案。本文的主要贡献有以下几点:1.设计并实现了一个通用的Web信息抽取系统。通过该系统用户能够把HTML页面中感兴趣的信息点抽取出来,用结构化和扩展性强的XML来表示抽取结果。该系统具有一定的通用性和灵活性,用户能够快速定制应用于不同领域的Web信息抽取包装器。2.提出并实现了一种基于XML的Web数据转化算法。该数据转换算法能够有效地把HTML格式的文档转化为XHTML(XML)格式的文档,它是系统对HTML页面进行清洗的技术支持,极大地简化了Web信息抽取工作。3.提出并实现了一种基于DOM的XPath生成算法。本文的信息定位是建立在XPath之上的,而在XHTML文档中定位信息点并编写XPath路径比较困难,本文提出的XPath生成算法很好地解决了这个问题。4.利用XSLT作为抽取规则的描述语言,并使用XPath来定位待抽取信息点,这有利于抽取模式的统一。对于单信息块的抽取,本系统实现了抽取规则的自动生成。对于多信息块的抽取,在获得所有待抽取节点的XPath后,对抽取模板进行合并处理得到抽取规则。同时可使用数据定位优化方法来优化规则。本文提出的Web信息抽取思想能够较好地解决Web信息抽取的问题,同时,该系统的召回率和准确率都能够达到较高的比例。
其他文献
目前,大功率直驱并网型低速永磁同步发电机组(D-PMSG)正成为风力发电技术研究的热点之一。本文在对比现有的四种常见风力发电系统结构性能的基础上,建立完整的直驱低速永磁风
目的:肿瘤仍然是当今社会致死率最高的恶性疾病之一,严重威胁着人们的生命健康。目前对抗肿瘤药物的研究较多,脂质体由于具有降低药物的毒性、提高疗效、对人体无毒和无免疫
<正>焯水,就是将初步加工的原料放在开水锅中加热至半熟或全熟,取出以备进一步烹调或调味。它是烹调中特别是冷拌菜不可缺少的一道工序。对菜肴的色、香、味,特别是色起着关
<正>北京有句顺口溜:"涮羊肉何处嫩,北京城里东来顺"。座落于北京东安市场北侧的"东来顺饭庄",几乎成了涮羊肉的代名词。该店名闻京华百多年,现在依然生意兴隆、门庭若市。东
笔者从事出纳工作,通过自身感受,对出纳岗位有了深刻的认识。本文针对出纳岗位面临的问题提出建议,力求使出纳岗位的工作更加尽责完善。
<正>一、薪酬管理现状1、国有企业现行薪酬状况。目前,部分国有企业的工资办法均由各企业结合本单位的实际情况自行制定和执行,大部分国有企业每年年初拟定工资基数,年终根据
十九世纪末后,西方国家由自由资本主义阶段进入了垄断资本主义阶段。很多西方国家面对新的形势调整相关的经济政策,对经济领域进行干预。面对社会与经济的变革,德国和意大利
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
介绍了一种宽带、高分辨率和低相噪频率合成器的设计与实现方案.该频率合成器包含3个部分:(1)STM32处理器部分,作为频率合成器的控制器并为其提供远程控制的CAN总线接口;(2)