基于Spark的Web文本挖掘系统的研究与实现

被引量 : 0次 | 上传用户:kasuo11111111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交网络、在线媒体/社区、电子商务等网站的飞速发展,催生了互联网上数以亿计的Web文本数据。与传统的文本信息相比,Web文本具有规模性和异构性的特点,对其进行整合及分析的过程更为复杂。因此,如何通过有效手段,从纷繁复杂的Web文本数据中快速获取、整合有价值的信息和知识是近年来文本挖掘领域的热点问题。而进入21世纪,随着云计算、分布式存储以及数据挖掘等信息处理技术的日渐成熟,以Hadoop Map Reduce和Spark为代表的大数据并行计算框架应运而生。其中,Spark基于内存计算,具有高效的数据处理能力,并提供对实时、交互式的数据访问支持,克服了Map Reduce在需要大量迭代计算的数据挖掘和机器学习算法中的明显不足,更适用于构建低延迟的大数据处理应用。鉴于此,本文基于新一代大数据并行运算框架Spark,进行了Web文本挖掘系统的研究与实现,主要工作包含以下四部分:1.在Web文本挖掘系统的基础知识准备部分,首先对Web文本挖掘的概念和具体流程进行了深入研究;然后,对大数据分析引擎的重点技术进行了详细介绍,包括并行计算框架Spark和分布式文件系统HDFS;最后,对Web文本挖掘系统所涉及的其他概念和技术,包括机器学习、网络爬虫以及文本信息可视化做出了简要概括。2.在Web文本挖掘系统的算法准备部分,首先对文本特征提取算法TF-IDF进行研究改进,并且在Spark并行计算的环境下对其进行了应用研究和讨论;然后,对LDA主题模型及其改进模型Labeled-LDA的原理进行了深入研究。3.在Web文本挖掘系统的总体设计部分,以IT社区/在线新闻、技术博客等更新速度快、信息量大、知识涵盖面广且原始文档分类信息较完善的中文计算机技术类网站内容为分析对象,以帮助用户快速识别、整合海量文本数据中的热点内容和热门主题为应用目标,进行了Web文本挖掘系统的功能需求分析、总体架构以及模块划分等工作。4.在Web文本挖掘系统的详细设计和编码实现部分,首先进行了大数据运行架构的环境搭建及部署;然后根据总体设计的结果编码实现了系统的三个主要功能模块,包括信息采集模块、文本分析模块以及文本信息可视化模块;最后将系统应用于若干技术类网站的文本挖掘中,通过运行速率及挖掘结果证实了系统的可行性和实用性。
其他文献
美容行业是一个与我们的日常生活密切相关,发展速度甚至比房地产、IT还快,整体经济效益保持良好的产业。在这样一个蕴含巨大商机的产业中,知名品牌却寥寥无几。二十一世纪是
在电影诞生的早期,好莱坞的影人就着手拍摄经典童话的改编电影,历经了萌芽期、经典期、低谷期、现代期,这种改编的热情一直持续到现在。在改编的对象没有变化的情况下,好莱坞
<正>1.清楚划分不同层级政府支出责任的启示。政府间财政关系的核心就是要清楚划分不同层级政府的支出责任。意大利将地方政府的公共服务职责分为强制性公共服务和其他所有公
协同创新是推动我国教育与科技、经济、文化紧密结合的重大战略。在国家大力倡导科技创新的背景下,面对经济社会文化发展和高等教育发展带来的重大机遇,协同创新对地方高校的
<正>没有一成不变的市场,也不存在一成不变的企业。对工程机械行业来说,曾因为GDP两位数增长时你追我赶的惯性,中国工程机械行业马不停蹄的奔跑,急着创新,急着扩张,急着战斗,
对两家稀土生产企业的生产工艺和排污现状进行了现场调查研究,并针对整合改造项目的可行性研究报告进行了分析研究。论述了现有企业的生成工艺、废水排放情况和整合改造后两
<正>1.建设现代化的财政。大国财政,首先是现代化的财政。今天的时代是工业文明的时代,时代方位决定了我们要建设的大国财政必须是与工业文明相适应的财政。如何建设一个现代
<正>医务社会工作的发展医务社会工作起源于欧美国家的社会救助制度。欧美国家的医务社工早期主要面向贫困者开展医疗救助,其服务范围主要在医院院内。后来,医务社工的服务对
建立了皮革和毛皮中4一氨基偶氮苯气相色谱质谱联用仪(GC/MS)和快速高分离度液相色谱/二极管阵列检测器(RRLC/DAD)的测定方法。样品在碱性介质中用连二亚硫酸钠还原,在氯化钠的存在下
<正>拉斯维加斯CONEXPO-CON/AGG展开展的第一天,英国珀金斯公司(Perkins)总裁韩瑰恩便在展台向大家揭幕了此次珀金斯最重要的一款展品——最新研制的可满足美国Tier 4最终期