论文部分内容阅读
随着数据挖掘技术的成熟与发展,数据挖掘算法的数量与日剧增。不同的数据挖掘算法适应不同的任务场景和用户数据,能否正确地选择出合适的挖掘算法直接影响到数据挖掘工作的效率和质量。数据挖掘技术的复杂性和专业性要求用户必须具备非常全面的专业知识才能正确的使用和选择已有的数据挖掘算法,这对于普通用户而言是非常困难的。因此,如何将数据挖掘算法的选择过程自动化已经成为目.前数据挖掘研究领域中亟待解决的问题。本文提出了一种以用户的挖掘任务和数据特性为依据的数据挖掘算法智能推荐模型。该模型建立在已有的并行数据挖掘平台上,从用户数据的特性入手,结合数据挖掘算法的性能知识和大量的实验,自适应地构造出数据挖掘算法性能知识库。基于算法在特性相似的数据上表现出的性能也相近的原理,通过比较用户数据与性能知识库中已有数据的相似性,自动地为用户选择最合适的数据挖掘算法,极大地方便了用户对该并行数据挖掘平台的使用。本文对算法推荐模型的设计与实现借助于并行数据挖掘平台提供的操作界面、数据挖掘算法等资源,通过计算数据的特性参数实现对用户数据的特征提取,通过计算数据的特征矢量距离实现数据相似性的比较,通过定义算法性能知识库的组成、结构及操作实现算法性能知识库的构建与维护,通过计算准确率、凝聚度等性能指标实现对算法性能的评估与比较。算法推荐系统的设计与实现工作结束后,本文还设计了大量的实验,对推荐算法和普通算法的挖掘性能进行对比与分析,验证了推荐结果的正确性。