论文部分内容阅读
知识经济条件下,知识更新速度加快,科学技术发展迅猛,科研评估体系出现了新的发展动向。在科研评估体系中,数据的处理在其中占有重要的作用,随着大型科技文献、论文、专利数据库系统等在科学研究中的广泛应用,全球范围内的科技数据信息量急剧增大。面对庞大的科技信息数据库,需要快捷地从中提取出有用和有效的知识,因此巨大的科技信息数据有待分析处理。 本项研究基于中国科学院ARP项目评估评价系统,结合实际的应用实施,分析了现行科研评估系统中数据情况,介绍了如何在中科院评估评价系统中构建数据预处理系统。本文首次尝试将数据预处理技术应用到科研评估系统的数据预处理过程中,开发一个针对海量评估数据的数据预处理系统。 本文首先介绍了中国科研评估体系的现状及其面临的问题,并对现行的数据预处理和元数据的研究现状进行了分析,在此基础上提出了本研究所设计的系统——数据预处理系统。其共分为三个部分:元数据库、规则定义模块和数据处理模块。系统的整个工作流程如下:首先将通过数据库扫描获取源数据库、目标数据库的结构内容信息,并将其存入元数据库中;然后用户根据这些结构内容信息,定义数据抽取、转换等各种规则,以期获取自己所需要的数据,并将其存入元数据库中;最后数据处理模块从元数据库中获取各种已定义好的规则,调用其功能模块对其进行处理,从而获取用户所需要的数据。在整个系统设计实现中涉及到一系列技术和方法,像数据预处理技术、元数据模型技术和XML技术等等,本文对此也作了一定的介绍。 本文解决的关键问题有以下几方面: 第一、针对数据预处理系统设计中关键问题之一—元数据库的设计,本文采用三层模型结构:将元数据库逻辑上分为代理层、服务层和对象层。与此层次结构相对应的,元数据库的系统结构设计仍然采用技术比较成熟的客户机/服务器模式(Client/Server mode),这样设计提高系统独立性,同时为决策和技术人员提供同样的视角,但提供不同的操作功能。 第二、针对以前评估系统存在的问题——抽取的数据不尽如人意,系统设计了规则定义模块,方便用户按照自己的需求定义各种数据处理规则,使系统具有很强的灵活性;同时设计了统一的接口,友好的人机界面,简单易操作。