论文部分内容阅读
Goo出在2004年提出了MapReduce框架,MapReduce支持海量数据的并行计算。单词贡献度算法是文本挖掘中一种比较新颖的用于非监督聚类的特征词提取算法。本文基于MapReduce框架设计并实现了一种并行的单词贡献度算法。通过对比试验可以得出结论,本文所提出的并行算法较普通的单词贡献度算法性能有大幅度提升。