Web信息自动抽取技术的研究

来源 :电子科技大学 | 被引量 : 8次 | 上传用户:diliwer3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的进步网络技术的发展,互联网已经在各个领域融入我们的生活。面对日益增长的网页数据,如何获取其中有价值的信息或者是所感兴趣的信息,是一个需要面对的问题。为了获取这些网页中的半结构化数据,本文研究并实现了一种基于模型的信息抽取方法,并将其应用于M-IE(Modeling-base InformationExtraction)系统。本文提出一种基于模型的信息抽取方法:首先通过界面简单操作制定抽取规则,然后根据规则自动抽取信息。通过研究用户浏览网页的行为,结合对浏览器内核的研究,本文提出一种以三元素为基础的脚本描述。这里的三元素分别描述了:1.网页中指定的元素;2.对元素进行的操作;3.输出内容的格式。然后对最终生成的脚本如何解析,做了详细的阐述,对于元素1的实现给出了详细的算法说明。基于模型的信息抽取方法可以应用于本文提出的M-IE系统中。该系统主要针对论坛、微博和门户网站进行精确信息抓取,输出结构化的数据。最关键的是,这些数据是具有语义的。论坛和微博所抽取的信息,可以反应草根群体的信息热点。在M-IE系统中,通过界面可以简单快速的生成抽取规则,不需要专业知识。M-IE系统的总体结构可以划分为抽取规则生成模块、抽取规则解析模块、信息过滤模块、数据库模块和数据分析模块。该系统中各个模块具有定义良好的接口,可以动态替换。本文最后以学校论坛和sina微博为例子,阐述了在M-IE系统中,如何经过简单的操作生成抽取规则。在生成抽取规则时,可以预览到即将抓取的信息。这些信息不仅是结构化的,而且是具有语义的。
其他文献
随着计算机技术、通信技术和微电子等技术的高速发展,信息技术已渗透到军事、民用领域的各个角落。在系统先进的电子设备或电子系统中,高速高分辩AD和DA转换器已成为决定诸如雷
安全审计作为安全操作系统的一个重要安全机制,对于监督系统的正常运行、保障安全策略的正确实施、构造计算机入侵检测系统等都具有十分重要的意义.该文研究了安全审计的相关
随着生物信息学的蓬勃发展和分子生物信息数据库的不断扩大,生物分子的三维结构显示对于生物信息的分析起着越来越重要的作用。蛋白质分子可视化软件HJMV(Hust Java Molecula
当前的软件项目正面临着需求日益复杂、变更日益频繁,而开发周期越来越短、对软件的质量要求越来越高的矛盾,因此,传统的由个人单独完成整个项目的开发方式变得越来越不现实,
该文在第一章首先介绍了QoS问题的提出、基本概念、度量、QoS的几个关键问题;第二章分析了IP QoS的一般解决途径及其实现机制;第三章给出了IP路由概念,以及几种常见的路由算
遥感通过非接触、远距离探测技术,接收地物对电磁波的辐射和反射信息分析地物的特性,成为了监测和获取地球资源的重要手段。随着光学技术、无线电电子技术和计算机科学技术的发展,遥感图像的空间和光谱分辨率越来越高,遥感数据量已呈现爆炸式增长趋势,而且数据类型不在单一,遥感数据已明显具有大数据特征。遥感大数据应用的计算流程复杂,光谱、时间和空间复杂度高,在传统的单机计算中往往会出现计算和存储的瓶颈,这些都是当
敏捷企业被誉为21世纪最有竞争力的企业组织模式,"敏捷"就是指企业在不可预见的、多变的环境中快速调整适应的能力.开展敏捷企业模式的研究、开发与应用,对于提高中国企业,特
移动自组网是一种有特殊用途的对等式网络,具有无中心、自组织、可快速展开、可移动等特点,同时容易引发安全问题。本文主要研究移动自组网络中内部攻击对网络性能的影响以及安
随着计算机技术、遥感技术、地球物理学以及相关技术的飞速发展,地理信息系统已经在社会各行各业得到了广泛的应用。人们所生活的空间是三维的,但是现有的地理信息系统都是基于
Web Services(Web服务)是建立可互操作的分布式应用程序的新平台,它是一个应用程序,向外界提供能够通过Web进行调用的API接口。Web服务作为新一代分布式技术,它的松散耦合性、跨