主题精选与特征提取在Web信息抽取中的研究应用

来源 :陕西科技大学 | 被引量 : 0次 | 上传用户:xiongxiaoxue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的发展,因特网成为目前使用最广泛,规模最大的信息源,为了方便、高效的从网络上获取所需要的信息,人们广泛使用搜索引擎来进行信息搜索。然而搜素引擎搜索出来的信息都是分布在各种不同的页面中,为了更深层次的挖掘潜在的网页信息,信息抽取技术应运而生。通过信息抽取技术我们可以得到特定网站的信息满足用户的需求。开发人员可以进一步地将这些信息存储在数据库中,作为数据挖掘来使用,开发出更广泛的应用。因此,这一技术越来越成为研究人员关注的焦点。   Web信息抽取技术是从Web上大量的信息中得到数据对象间的内在关系,然后根据需要进行信息点的抽取工作。它的实现涉及到很多知识领域,其中包括计算机网络、人工智能、文本处理和归纳学习等。   本文首先介绍了Web信息抽取知识的相关背景和研究现状,分析了目前Web信息抽取中的各种技术方法,说明了本文信息抽取中需要用到的各种相关技术,其中包括HTML,XML,DOM,XSLT,XPath等。然后对现有的Web信息抽取体系中各种方法技术进行分析和研究,综合考虑各种技术的优缺点,设计了Web信息抽取总体模型。其中用较小的篇幅研究了主题精选算法和它在网络信息采集中的应用以及特征提取在信息抽取中的应用。   以具体页面为例进行详细分析,利用基于XML技术进行Web信息抽取,并对该方法的实现过程进行详细的介绍。本方法首先是对Web页面的HTML结构进行文档的预处理,接着对预处理后的页面进行DOM树解析,将其转换成XML的格式。然后通过对XML文档的优化处理,采用XPath路径表达式来实现具体页面信息点的定位,采用XSLT规则进行抽取。   根据以上的理论研究基础,文中结合具体网站实现信息抽取平台的设计开发,通过运行得到该网站的内容,并且以文件的形式存储在本地。该平台具有良好的可扩展性和可修改性。最后本文对一些以信息抽取为基础开发的应用进行了全面介绍,说明了信息抽取技术非常广阔的应用前景。
其他文献
Web信息抽取技术是在计算机不断普及和互联网迅速发展的背景下产生的。面对网络中海量、半结构化的Web文本资源,Web信息抽取技术致力于从中提取特定的信息,并将其转化为含义
嵌入式系统的应用日益多样化,深刻影响着人们的生活。汽车控制、多媒体视频娱乐、个人移动电话,到处有嵌入式系统的影子。人们也对嵌入式系统的性能提出越来越高的要求,其中实时
人类对物体的识别主要是对物体外形的识别,图像形状检测在图像处理及模式识别中是很重要的。Hough变换是种在图形图像处理中经常用到的形状检测方法,实现的是一种从图像空间到
近年来,P2P技术成为人们研究的热点问题,基于其分布式和能充分利用资源的特点快速发展并得到广泛应用。但是,随之产生的安全、效率等方面的问题逐渐凸现,特别是网络中节点的
模型驱动架构(MDA)是一种以模型为核心的软件开发方法。MDA开发过程以需求分析阶段为起点,软件开发人员通过阅读分析非形式化或半形式化的需求规格说明,手工创建平台无关模型(PIM)
协同图形编辑系统支持地域分散的一组设计群体通过网络同步高效地浏览、操作和修改共享的图形文档,而其中全复制结构下协同过程中的一致性维护和语义保持是协同设计相关研究
密码学的分析与设计是两个既相互依存又相互对立的研究方向,分组密码的这种对立统一关系促进了它的快速发展。S盒是诸多分组密码系统中的唯一非线性部件,它提供了香农理论中
Malware detection has become more difficult with the use of compression,polymorphic methods and techniques to detect and disable security sottware. Those andoth
随着信息量剧增,并且需要处理的事务增多,存储相关的数据也成为各行业的中心,例如银行、金融、政府、教育等领域,一旦这些数据损坏,将会造成不可估量的损失。存储区域网络(St
随着人类人口快速增加,城市化进程的加快和工业水平的提高,大气中灰霾污染日趋严重,为了加强对灰霾的监测和治理,开展灰霾等级的预测意义重大。   本文通过将美国环保署开发的