基于本体的文本信息抽取技术及实现

来源 :东北师范大学 | 被引量 : 2次 | 上传用户:littles721
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的不断进步,网络上的资源越来越丰富,这给人们带来方便的同时也带来了不便,因为人们在大量的信息中快速的找到自己所需要的信息变成了一件很困难的事情。在计算机学科中为了攻克这一难题大家进行了刻苦的专研,就是在这样的情况下产生的信息抽取技术。而基于本体的信息抽取技术现今已经成为信息抽取技术中的研究热点。本文先阐述了信息抽取技术及其产生的背景和发展历史,然后对本体的基本知识进行了研究,在此基础上,本文提出了一种新的基于本体的信息抽取方法,将本体和信息抽取结合起来,即利用本体的规则生成模块,进而生成抽取规则来抽取人们所需要的文本信息。所以利用信息抽取规则来进行信息抽取实际上就是基于本体的信息抽取。本文设计并实现了一个基于高校教师简历本体的信息抽取系统,设计了基于本体的信息抽取系统的总体框架,并详细说明系统中的主要模块的设计和实现,其中包括领域本体的构建、本体解析的过程、web页面的预处理、信息抽取的实现等。本文将无规则的web页面进行预处理后存入到数据库中,用Protégé3.3构建高校教师简历本体,然后将本体进行解析,将解析后的概念、属性等相关信息存储到数据库中。最后,用信息抽取系统来进行抽取,并得出最终抽取的结果。在文章的最后对基于本体的信息抽取系统的实验结果进行了对比分析。
其他文献
伴随着网络技术及多媒体技术如数字图像、数字视频等的飞速发展,数字信息在传播过程被窃取、篡改、非法复制和传播的问题越来越严重,这些成为信息安全健康持续发展的一大障碍
随着分形理论的研究与发展,分形理论在自然景观模拟、艺术图案设计、图像数据压缩、分形自然生长与混沌动力体系的研究等各个领域获得了广泛的应用,其中用分形方法模拟自然景
随着用户需求和网络的不断发展,人类社会积累的知识、数据急剧增加。如何从海量的事务数据中发现用户感兴趣的规则、有用的知识一直是数据挖掘领域研究者面临的一大难题,而这
随着计算机和计算技术的飞速发展,其应用已经渗入现代生活的各个领域,由于其极高的计算速度已成为科学研究必不可少的手段。其中一个典型的应用就是计算化学,计算化学极大依赖计
近年来,Internet取得了迅猛地发展,网络规模都在极具扩张,网络结构日渐复杂,网络流量高速增长。为了了解网络的运行使用情况,及时发现网络中可能存在的异常流量,需要一种有效
目前,全球企业面临着业务模式创新、多元信息整合、人才管理和业务流程透明化等众多变革。这些变革对企业的敏捷性提出了很高要求。SOA作为一种松耦合的体系架构,能够最大程
随着互联网技术和金融产业的飞速发展,网络上金融信息日益丰富,同时,人们对金融信息的需求也日益增多。金融文本的倾向性可能对相关个股或者公司股票价格走势产生重要影响,为
面向服务的架构(Service Oriented Architecture,SOA)技术广泛应用于面向服务的开发模式中,导致互联网上服务数量的大规模增长,服务类型的日益丰富,使得准确、高效地发现用户
近年来,无线Mesh网络作为一种新的网络结构受到了越来越多的人的关注。无线Mesh网络结合了传统WLAN和Ad hoc网络的优势,具有自组织性好、自愈性高、覆盖面积广、架设成本低等
双结构网络以传统的TCP/IP网络作为主结构,以添加了广播和存储功能的播存结构作为次结构,来解决互联网中共享类流量的无标度增长、内容难以监管的问题。双结构网络借助语义丰