基于网站语义结构的信息抽取系统的研究与实现

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:genye
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网资源含有大量的有用信息,且其信息数量仍在以指数形式飞速增长,这为用户提供了一个极具价值的信息源。但是因为互联网信息的海量性、异构性、易变性、非语义性等特点,人们要快速准确在海量网页中得到所需的信息并不容易,迫切需要一些自动化工具帮助用户有效获取互联网上信息。本文提出了一种新型的基于网站语义结构的信息自动抽取机制,意在从网站逻辑结构所体现的网站本身语义入手进行网页信息抽取,以使得计算机在一定程度上理解信息的含义,达到使信息抽取更为有效的目的。本文构建了一个基于网站语义结构的信息抽取系统,系统由三个主要部分组成:网站网页搜索器,网站语义结构生成器,网页信息抽取器。由网站网页搜索器对目标网站进行搜索,提供网站的链接关系以生成网站有向图,提供采集回的页面以进行信息提取;由网站语义结构生成器在网站管理者对网页内容的理解所进行分类的基础上,将网站有向图(网站的物理结构)转换为网站的语义结构,即得到一个按照网站语义分类得到的分类关系结构图;由网页信息抽取器在得到的分类关系的基础上对网页进行信息抽取,进而抽取出相关信息。本文实现了网站Spider,可对网站遍历采集,生成网站有向图,对网站Spider实现的一些关键问题进行了详细阐述;提出了基于网站语义的网页分类,并在网站有向图的基础上依据网站网页语义分类进一步生成可以反映网站语义的网站语义结构;然后在得到的网站语义结构的基础上进行信息抽取,提出了一个融入网页上视觉信息的、基于同类页面匹配的抽取网页信息的算法。
其他文献
随着微处理器、无线通信技术和微机电系统的发展,产生了无线传感器网络这一新的信息获取和处理模式。多个传感器节点通过无线通信、自组织方式构成网络,协同工作实时感知、获取
近些年来,无人驾驶汽车(Autonomous Vehicle)作为人工智能向传统技能性行业渗透的前沿领域,在世界范围内,尤其是中国和美国,呈现出爆发式增长的态势。轨迹跟踪控制技术处于无
信息技术的发展为我国大洋信息系统建设提供了支持和保证,使学科众多、结构复杂、数据量巨大的大洋系统建设成为可能。针对大洋信息系统建设方面的实际需要,就其中一些关键技
随着全球网络化、信息化的迅速发展,网络与信息安全问题日益严重。网络入侵及安全事件的频繁发生,使得应急响应受到了广泛关注。面对大量网络攻击事件,入侵检测系统已经能够用各
随着Internet技术、多媒体技术的发展,图像信息应用越来越广泛,人们对图形、图像等多媒体数据的需求也越来越强烈。图像检索技术逐渐成为目前的研究热点,传统的检索技术,如基
计算机和网络技术发展到今天,人们已经不满足现有的点对点的通信应用了。计算机支持的协同工作(CSCW,Computer Supported Cooperative Work)是计算机网络技术一个重要的发展方
计算机和网络无疑是这个时代最伟大的发明,它们的出现和迅速发展,将这个时代变成了信息时代。在当今社会中,计算机和网络已经渗透到国民生活的各个领域,不仅将人们从繁重的劳动中
网络教学为近几年来热门的网络应用之一。本论文针对高职高专院校当前教学工作的现状和面临的挑战,主要探讨利用开放源代码软件,构建基于校园网的课件点播系统(平台),开展适
人脸识别是目前生物特征识别中最受人们关注的一个分支,是计算机视觉与模式识别领域非常活跃的一个研究方向,利用人脸特征是最自然直接的手段,相比其他生物特征,它具有直接、友好
随着个人移动设备的普及和互联网、物联网等信息技术的快速发展,我们的生活已经进入了大数据时代。如何从海量数据中高效地获得有效信息,帮助和指导人们进行决策,是大数据时代下