论文部分内容阅读
针对日益增长的海量数据和信息,通常采取有效的采样技术对大数据集进行采样,然后通过对样本的分析得到数据总体的相关模式.首先论述了关于样本的一些基本概念:利用采样技术对大数据集和海量数据进行分析处理,讨论了普通抽样技术与数据挖掘中的采样技术的异同.然后对目前普遍采用的采样技术进行了分类,重点研究了简单随机采样和分层随机采样,并对不同采样技术进行了比较.最后给出数据挖掘中利用采样技术的一个实现.