论文部分内容阅读
建立数据仓库时,集成的数据是进一步分析、统计和数据挖掘的基础。另外,数据仓库中的数据必须是共享、可重用的,而不是造成了新的信息孤岛。而数据仓库中现有的ETL方案只能在语法、结构层次上集成数据,无法解决数据的共享、重用、以及语义上集成的问题;ETL的过程非常繁琐,没有智能化,工作量巨大。本文针对上述问题,介绍了数据仓库中一种基于本体的异构数据集成方法,重点解决了集成中的语义异构问题。提出了数据仓库中基于本体异构集成的框架与总体流程:首先建立领域本体,在领域本体的指导下建立数据源的全局本体,各数据源分别建立局部本体,然后通过数据源局部本体与全局本体间的映射得到映射关系,再通过本体推理,得出隐含的语义关系,用最终的语义映射关系来指导数据抽取、转换和加载过程,实现数据仓库语义程度以及智能化的异构数据集成。在领域本体方面,研究了一个铁路货运营销CRM的领域本体,采用了W3C推荐的OWL作为本体表示语言进行描述。在上述研究的基础上,设计了基于本体的ETLT具——OntoETL,并结合铁路货运营销系统,利用本体异构集成的技术,详细分析和设计了货运营销CRM数据仓库的数据集成过程。