基于空间几何形态的数据分类研究

来源 :成都理工大学 | 被引量 : 0次 | 上传用户:cynthia0737
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据分类是数据挖掘技术中的基础和重点,大数据的到来伴随着数据量和数据维数的不断增加,这导致了传统的数据分类技术产生巨大的局限性。要精准快速进行数据分类需要多种数据处理技术相互补充,本文通过将数据分类分为数据预处理、临界特征检测、数据分类以及对比验证四个部分进行。针对数据预处理,由于高维数据降维能有效防止维数灾难,避免噪声以及将数据可视化。通过简单分析对比常见的数据可视化方法的基本思想和应用,针对小麦种子数据本文选择主成分分析法对数据进行预处理,并且得到球形检验值为0.788,P值为0,解释的总方差达到88.982%,由此可将数据降为2维。针对临界特征检测,由于传统数据分类方法大都从而都忽略了数据集在空间所呈现的几何形态。因此本文从数据集在空间呈现的凹凸形态入手分析建立构成两种几何体的临界点集的特征条件。在此基础上,将几何体之间的空间关系分为有重叠区域和没有重叠区域,结合贝叶斯概率进行临界点检测。在实证部分,本文通过利用降维后的训练样本进行临界点检测,并在重叠区域提取了8个临界点,在非重叠区域提取了13个临界点。针对数据分类,本文通过统计学上数据分类的基础理论引申出利用支持向量机通过寻求结构风险最小化来实现经验风险和置信范围最小化,还能提高学习机的泛化能力。同时,本文通过分析最大间隔分类法推导出支持向量机分类算法。由于支持向量机分类算法涉及核函数等多个参数,本文在实证部分通过分析高斯核函数参数g2、支持向量平衡参数C以及测试样本分类正确率P的动态空间关系,由此找到最佳参数组合区域,并取参数组合g2=20.30303,C=29.3939,由此对测试数据进行分类。针对对比验证,由于支持向量机分类算法本身具有特征提取的特点,为验证临界特征点提取的必要性,本文通过将特征提取之后的数据作为实验组,将未进行特征提取的数据作为对比组,分别从分类准确率和算法运行时间两个角度进行对比分析。由此得到实验组分类准确率为95%,算法运行时间为3.390s;对比组分类准确率为85%,算法运行时间为4.130s。由此可知通过空间几何形态提取特征数据不仅能快速准确获取关键信息,提高准确率,而且对数据分类起着关键性作用。
其他文献
  本文通过估计Laplace渐近积分,得到了回归系数最小二乘估计的中偏差.根据对随机误差的不同假定又分三节进行了讨论.不仅给出了随机误差为取值于Rd的相互独立同分布情形下