论文部分内容阅读
针对传统的文本分类方法费时且占用大量资源、效率低等问题,提出了结合大数据处理平台Hadoop和中文文本分类,实现支持向量机(SVM)算法的并行化的模型。通过试验数据分析表明,对比采用传统的单机SVM对样本数据进行训练这个方式,基于Hadoop平台而实现的SVM并行化算法能够改善在对大量样本训练时训练时间长的缺陷,并且分类的准确率也有所提高,尤其是对大量文本进行分类时,Hadoop平台下的并行SVM算法较单机SVM算法具有更大的优势。