基于Wordnet和聚焦爬虫半自动构建本体技术的研究与实现

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:calvin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本体的概念最初起源于哲学领域,古希腊哲学家亚里士多德在哲学中的定义为“对世界上客观存在物的系统地描述,即存在论”,是客观存在的一个系统的解释或说明,关心的是客观现实的抽象本质。20世纪90年代以来,人们将本体的概念引入人工智能、知识工程和图书情报等领域。本体现被广泛应用于计算机科学及其应用领域,因为它能有效地解决知识工程中知识共享和重用两大问题。作为本体应用研究的一项基础性工作——本体构建,也吸引了国内外众多科研人员的关注。目前,本体的构建大都由领域专家手工编制,虽然该方法较为准确,但是工程复杂、费时、费力,易受创建者主观意识的限制。然而面向语义、知识的自动构建本体,难度很大。信息技术的飞速发展,已有的领域本体已不满足实际的需求,因此如何扩展本体也显得至关重要。本文将语义字典——WordNet和聚焦爬虫等相关技术应用到领域本体的构建过程中,进行了领域本体的半自动构建的研究。以WordNet为中心,聚焦爬虫为辅助,通过计算概念与概念之间相似度,确定领域的相关概念。然后,利用基于最小距离法的凝聚的层次聚类算法生成概念之间的关系,将新增概念与领域本体合并。最后,通过本体编辑工具对其进行修改和完善。本文获得的主要研究成果有:(1)通过介绍本体的概念、本体构成及分析已有本体构建方法,提出了基于WordNet和聚焦爬虫相结合的半自动本体构建方法。(2)以WordNet作为语义字典,利用其自身的语义关系,通过计算两个概念之间的信息熵,得到概念间的语义相似度。(3)利用聚焦爬虫作为大型语料库计算概念在上下文中出现的频率,计算概念间语义相似度,一定程度上弥补了数据稀疏问题。(4)根据先前计算得到的概念相似度,采用基于最小距离法的凝聚的层次聚类算法,依据自定义的规则进行本体集成。(5)开发了本体编辑工具MyProtégé,用户可以根据实际情况,进一步修改、完善本体。
其他文献
在生物领域研究中,在巨量生物数据库中进行生物序列相似性查询是一项经常性的工作,在探索生物学知识和生命活动规律的过程中扮演着重要角色。然而在大型的长序列数据库中用朴
随着我国城市经济建设和社会的快速发展,电力、石油、铁路、邮政、交通等行业对巡检管理工作的要求越来越规范化、科学化、数据化。在安全防范系统方面尤其重要,因此采用先进的
彩铃业务是个性化多彩回铃音业务(CRBT,Coloring Ring Back Tone)的简称,是一项由被叫用户定制,为主叫用户提供一段悦耳的音乐或一句问候语来替代普通回铃音的业务。该业务有
IEEE 802.11无线局域网络的使用越来越广泛,其物理层数据传输速率随着技术的发展不断提高,而信道利用率却没有成比例增长。主要原因是传统的接入控制机制(MAC)引入了太多控制
支持向量机(SVM)是在统计学习理论基础上发展起来的一种新的模式识别方法,它是统计学习理论中的结构风险最小化思想在实际中的一种体现。SVM的基本思想是通过非线性变换将输
近年来,随着人类基因组计划的实施以及功能基因组和蛋白质组研究的开展,生物信息学成为生物学和信息科学的研究热点。生物医学文献的数量迅速地增长,没有人能够阅读完如此众多的
说话人识别技术是指通过说话人的语音自动鉴别说话人身份的技术,它是生物认证技术之一。与其他生物认证技术相比,具有数据采集简单,能实时识别,远程识别等优势,能够广泛应用
随着具有计算和组网能力设备的出现以及这些设备的小型化和嵌入化,传统的以计算机为中心的计算模式因无法克服一人多机所带来的困扰而受到严重挑战。Mark Weiser提出了以“透
随着计算机异构系统结构和高性能CPU等技术的飞速发展,以“天河二号”为代表的超级计算机的峰值计算性能已经达到54.9PFlops,正在向EFlops规模发展。CPU、内存、互连网络和外
本文研究从BBS主题网页中自动抽取用户发言信息的问题。该类问题的传统解决方法主要基于对HTML网页的DOM树和标签结构的分析,密切依赖于HTML标准。这使网页规范性对抽取正确