论文部分内容阅读
社交网络、在线媒体/社区、电子商务等网站的飞速发展,催生了互联网上数以亿计的Web文本数据。与传统的文本信息相比,Web文本具有规模性和异构性的特点,对其进行整合及分析的过程更为复杂。因此,如何通过有效手段,从纷繁复杂的Web文本数据中快速获取、整合有价值的信息和知识是近年来文本挖掘领域的热点问题。而进入21世纪,随着云计算、分布式存储以及数据挖掘等信息处理技术的日渐成熟,以Hadoop Map Reduce和Spark为代表的大数据并行计算框架应运而生。其中,Spark基于内存计算,具有高效的数据处理能力,并提供对实时、交互式的数据访问支持,克服了Map Reduce在需要大量迭代计算的数据挖掘和机器学习算法中的明显不足,更适用于构建低延迟的大数据处理应用。鉴于此,本文基于新一代大数据并行运算框架Spark,进行了Web文本挖掘系统的研究与实现,主要工作包含以下四部分:1.在Web文本挖掘系统的基础知识准备部分,首先对Web文本挖掘的概念和具体流程进行了深入研究;然后,对大数据分析引擎的重点技术进行了详细介绍,包括并行计算框架Spark和分布式文件系统HDFS;最后,对Web文本挖掘系统所涉及的其他概念和技术,包括机器学习、网络爬虫以及文本信息可视化做出了简要概括。2.在Web文本挖掘系统的算法准备部分,首先对文本特征提取算法TF-IDF进行研究改进,并且在Spark并行计算的环境下对其进行了应用研究和讨论;然后,对LDA主题模型及其改进模型Labeled-LDA的原理进行了深入研究。3.在Web文本挖掘系统的总体设计部分,以IT社区/在线新闻、技术博客等更新速度快、信息量大、知识涵盖面广且原始文档分类信息较完善的中文计算机技术类网站内容为分析对象,以帮助用户快速识别、整合海量文本数据中的热点内容和热门主题为应用目标,进行了Web文本挖掘系统的功能需求分析、总体架构以及模块划分等工作。4.在Web文本挖掘系统的详细设计和编码实现部分,首先进行了大数据运行架构的环境搭建及部署;然后根据总体设计的结果编码实现了系统的三个主要功能模块,包括信息采集模块、文本分析模块以及文本信息可视化模块;最后将系统应用于若干技术类网站的文本挖掘中,通过运行速率及挖掘结果证实了系统的可行性和实用性。