论文部分内容阅读
面对日益庞大的数据资源,数据挖掘技术应运而生。它是一种致力于数据分析和理解、揭示数据内部蕴藏知识的技术,是当前人工智能领域和数据库领域相结合的热点研究课题。概念格的出现使数据挖掘的功能变得更加完善,它是由德国Wille教授在20世纪80年代初期提出的一种形式化概念分析方法,主要用于概念的发现、排序和显示。“‘数字海洋’信息基础平台构建”作为国务院批准并实施的”我国近海海洋综合调查与评价”专项(908专项)中三大项目之一,主要开展海洋信息标准体系与质量管理体系建设,利用908专项调查资料、历史资料、海洋监测监视等工作中获得的资料,建立起多学科、多专业的国家海洋数据仓库和省市海洋数据库系统,开发公共软件支撑框架,建立海洋信息更新体系,实现海洋信息的整合改造、高度集成和动态更新,为海洋综合管理与服务信息系统、公共服务系统和“数字海洋”原型系统等应用服务提供高效的数据和技术支撑,建立海洋数据中心,实现海洋信息的高效流通和有效共享,提高海洋信息的管理和利用效率。其中建立包括海洋核心元数据标准在内的海洋信息标准体系是908-03的一项关键任务。在元数据标准的建设过程中,元数据的选择和提取是一个基础性、关键性的工作,目前主要靠人工的方法从现有的业务数据资料中选择和提取。面对日益庞大的数据量,人们渐渐显示力不从心。如何改变这种状况,寻求一种能够快速、自动提取元数据的方法是目前亟待解决的问题,也是一个涉及数据挖掘和自然语言语义处理等技术的困难问题。目前,国内外对这方面的研究还不多见,本文从实际需要出发,在查阅大量文献资料的基础上,对该问题进行了较为深入的研究。主要工作如下;1.介绍了目前国内外海洋元数据如EDIOS、MEDI、ODAS、AFGO四种不同元数据的研究现状,并以科学数据库核心元数据标准为例对元数据与元数据标准的一些基本概念进行了分析。2.针对目前海洋核心元数据标准建设过程中人工提取元数据费时费力且易出错等问题,进行了深入思考、探索,提出了海洋核心元数据挖掘的框架,并对框架进行了详细分析。该框架基于数据挖掘的思想,根据元数据的特点,对数据挖掘过程进行了调整,引入了数据后处理阶段。在数据后处理阶段科学数据库核心元数据标准进行了概念格构造。3.为实现元数据挖掘框架,通过数据源选择、利用最小值支持度挖掘数据频繁项。考虑到海洋核心元数据标准是科学数据库核心元数据标准的一个子集,选择概念格化的科学数据库核心元数据标准作为海洋核心元数据挖掘的评价原则。4.利用现有的海洋数据调查资料,通过计算机实验,对所提框架进行验证,并对系统提取的备选元数据与人工提取的备选元数据进行了比较分析,实验结果表明所提框架和方法基本可行。