论文部分内容阅读
随着数据采集手段的创新及数据库技术的迅速发展和广泛应用,数据采集与管理效率极大提高。科学研究中获得的海量数据中有大量数据冗余,也隐藏着许多重要的、有价值的信息。数据挖掘技术是针对海量数据进行更高层次的分析,获取这些潜在的、有规律信息用以指导工作与实践。数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的大型数据库、数据仓库、互联网、其它数据源、以及数据流的数据中,提取隐含其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。近十几年来数据挖掘技术已得到广泛的研究,并在农业、商业等诸多领域得到成功应用。室内高光谱技术较成熟地用于地物的室内光谱数据的采集,在利用室内土壤高光谱数据对土壤特性进行建模时,因高光谱遥感数据波段多,数据量大,利用常规统计方法提取相关信息存在一定的难度。数据挖掘(DM)能为自动和智能地从海量的室内高光谱数据中提取有用的建模信息提供了技术和方法支持。论文阐述了数据挖掘、神经网络以及支持向量机的基本概念、基本模型和传统实现方法,分析了其研究现状和发展趋势。针对数据挖掘具体的研究内容,提出并实现了数据挖掘中的数据准备的一般处理方法、基于神经网络以及支持向量机的数据回归与预测、基于误差反向传播神经网络以及支持向量机的可行性研究,进行了土壤有机质含量高光谱数据的预测分析并与多元回归预测模型进行了比较。研究结果表明,支持向量机模型其预测精度最优,但是对于部分样本点的预测还存在较大的误差。产生这样结果的原因是复杂的,但是综合分析起来,可以归结为以下几点:训练集合中的样本数量有限,不可能完全覆盖测评模式的所有可能,若增大选取样本数量,则同时要增大特征库的容量,而且要考虑到保持一定的预测速度,特征选取不能无限增大,也限制了精确率的提高。