中文领域本土学习中概念和关系抽取的研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:wb_0622
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本体作为一种共享的概念化模型,在人工智能、知识工程、信息检索和语义网等许多领域中发挥着越来越重要的作用。手工构建本体是一件繁琐辛苦的任务,需要耗费大量时间和费用,且需要领域专家的参与,已不能满足本体应用的需要。因此,自动或半自动构建本体的本体学习技术成为当前研究的热点。   本体学习是指利用统计、机器学习、自然语言处理等众多学科技术自动或半自动地从已有的文本、结构化或半结构化文档、数据库等数据源中实现本体的构建。本体学习任务主要包括本体所包含的各个元素的自动或半自动获取,目前研究较多的是概念以及概念间关系的获取。现有本体学习方法以基于统计的方法为主,较多采用领域相关度及领域一致度相结合的方法抽取概念,关联规则方法抽取概念关系对。这些方法都是基于概念在领域中的高频出现来进行抽取的,其结果中含有较多冗余,准确度欠佳。   针对上述问题,本文通过引入对数似然比统计量,对传统方法抽取结果进行过滤以提高准确率。概念抽取过程中,使用领域相关度与领域一致度结合的方法获取初始领域概念,然后利用对数似然比衡量概念的领域重要程度,过滤冗余概念,获取最终领域概念。非分类关系的抽取过程中,在关联规则发现概念关系对的基础上,采用结合对数似然比方法检验概念间的相关性抽取语义关系对,并尝试获取关系标签。通过使用VFICF(Verb Frequency-Inverse Concepts Frequency)方法抽取领域动词作为候选关系标签,并再次利用对数似然比方法映射关系标签与概念对,获取非分类关系。   另外,在概念关系学习中,本文对分类关系的抽取方法进行了探索。利用概念上下文信息建立向量空间模型,计算各向量之间的余弦值作为概念间的语义相似度以衡量概念间的距离。然后根据层次聚类法思想,采用一种基于最小生成树的分类关系抽取方法,获得分类关系。   为验证模型的有效性,本文完成了一个本体学习原型系统,将传统本体学习模型与结合对数似然比检验过滤的本体学习进行对比实验。实验结果表明,改进的模型能够有效的提高概念、关系的查准率,证实了本文提出的学习方法的有效性。
其他文献
互联网信息的爆炸式增长、信息的种类变得纷繁复杂以及新兴电子商务服务的出现使得信息过载的情况变得越来越严重。因而在信息过滤工具中,推荐系统的地位也变得越来越重要。
操作系统是应用系统正确、安全运行的基础软件。微内核操作系统可提高系统的可扩展性,增强系统的可靠性和安全性,有很好的应用前景。系统调用是操作系统提供给用户的唯一接口
目前,E-Learning在教育与商业中的应用越来越普遍,鉴于在E-Learning环境中每个学习者的学习能力、学习兴趣、学习习惯、学习基础、努力程度等方面都存在着巨大的差异,在当前
任务调度是网格研究中所必须解决的一个关键问题,也是网格应用的基础。为了充分利用网格的大规模计算能力,提高计算效率,研究网格环境下的的任务调度问题对于网格的应用显得
随着我国经济的快速发展和全球信息化技术的不断提高,人们对生产和生活的品质要求也越来越髙。在即将到来的物联网时代,传统照明设备由于其控制状态单一、控制线路复杂、耗能多
社交网络的流行改变了人们的交流方式,越来越多的人喜欢在上面分享并获取各类信息,为了能有效地帮助用户发现其真正感兴趣的地点,出现了基于位置的社交网络(Location-Based S
绝缘子长期暴露在野外,在运行时很容易发生故障,因此需定期巡检。但输电线所经区域复杂,山区、平原等地形不一,利用传统的人工巡检方式,不仅工作量大而且条件艰苦。“十一五”期间,直升机广泛应用于输电线巡检中,同时怎样利用计算机视觉技术结合巡检数据,识别输电线路中的缺陷成为研究的重点。本文主要研究了航拍输电线路图像中绝缘子的分割和识别定位,为后期绝缘子故障识别提供了条件,同时对于实现直升机巡检输电线路的数
图像分割技术是图像工程中的关键步骤,从兴起的那刻就倍受科研界的关注。图像分割技术应用在图像工程学中的各个层次,其广泛的应用领域是其成为热点的重要原因。所谓的图像分
B超图像中肝硬化的识别在临床上对肝病的诊断具有重要意义,但是临床采集的图像中有噪声、尺度不一、病变边缘模糊、回声不均匀等因素。传统的图像识别技术在对肝硬化进行识别
作为一种重要的数据分析方法,聚类分析按照某种相似性度量将样本对象划分到不同的聚类中,并要求同一聚类中的样本相似性尽可能地大,而不同聚类中样本相似性尽可能地小。同时,