基于Hadoop平台的海量文本分类的并行化

来源 :计算机科学 | 被引量 : 0次 | 上传用户:houyangpeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是信息检索与数据挖掘的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。近来年随着文本数据呈指数增长,要有效地管理这些数据,就必须在分布式环境下用有效的算法来处理这些数据。在Ha-doop分布式平台下实现了一简单有效的文本分类算法——TFIDF分类算法,即一种基于向量空间模型的分类算法,它用余弦相似度得到分类结果。在两个数据集上做了实验,结果表明,这一并行化算法在大数据集上很有效并可以在实际领域中得到良好的应用。
其他文献
控制理论已被应用于Web服务器中,以改进其QoS性能。但当Web负载剧烈变化时,已有的基于反馈的比例延迟控制的实时性往往不佳。分析了HTTP1.1请求页面中嵌入URL的个数和嵌入文件大
提出一种基于Bhattacharyya距离测度零序电流相似性的配电网小电流接地系统故障选线方法,克服小波变换等暂态选线方法存在的难以确定能量频段的问题。通过对不同故障条件下小
《肝血管瘤诊断和治疗多学科专家共识》2019版,由国际肝胆胰协会中国分会肝血管瘤专业委员会牵头并联合多学科专家制定,从肝血管瘤的流行病学、诊断、临床分型、治疗指征及方
一,引言随着网络信息化的快速发展,许多地方的业务系统已经由C/S模式转为B/S模式,对界面的要求从简单变得更为复杂和美观.这样的发展趋势需要更多的网络带宽支持,即使网络的传输速