【摘 要】
:
随着互联网技术飞速发展,各行各业的数据以指数形式爆炸式增加,大数据的时代已经来临。如何高效地分析和挖掘这巨量的数据已成为人们关注的重点。高效地处理海量不规则的数据
论文部分内容阅读
随着互联网技术飞速发展,各行各业的数据以指数形式爆炸式增加,大数据的时代已经来临。如何高效地分析和挖掘这巨量的数据已成为人们关注的重点。高效地处理海量不规则的数据需要强大的数据处理能力,传统的单机方式已无法满足需求。分布式技术的出现极大地推动了基于大数据的分析和挖掘。Spark和Hadoop是目前两种使用最广泛的分布式并行计算框架。本文采用Spark作为大数据分布式处理平台。因为Spark不仅具有Hadoop中MapReduce的优点,还是基于内存计算,并有调度优化的机制和更加丰富的算子表达式。对于高迭代的复杂机器学习算法,Spark具有很大的优势。条件随机场(the conditional random fields)是一种概率图模型,它可以融合多种特征,并能够找出观察序列和标注序列之间对应的关系,已经被广泛应用在自然语言处理(NLP)中的许多领域。传统的条件随机场训练时间长了,在处理大数据时时间效率低。现有的条件随机场并行化研究工作主要是基于MPI,GPU和Hadoop的,然而它们没有考虑分布式环境中的带宽和磁盘读写的瓶颈。本文基于分布式内存计算框架Spark,提出了一种优化的并行条件随机场模型SCRFs。主要工作包括以下几个方面:(1)基于Spark平台,并行化条件随机场的特征生成、参数训练、模型预测三个阶段,提高了模型的时间效率。因为在训练阶段需要多次迭代计算,每次迭代都需要将原始的训练数据转换为中间结果,所以选择将中间结果缓存到内存中避免重复计算,从而缩短了计算时间。(2)本文从两个方面改进了模型:观察到参数训练的每次迭代过程中,由于模型的特征向量维度非常大,导致网络成本高。采用哈希特征的方法进行特征降维,用最小的成本来保留最多的原始特征信息;由于LBFGS算法更新一次参数需要计算所有数据的梯度,导致处理大数据时效率低。采用Batch-SGD的方法实现针对大数据的快速迭代计算。(3)将改进的条件随机场SCRFs在Spark上进行实现。本文实验环境采用Spark集群生产环境,将改进的模型SCRFs并行化。最后在Spark集群中测试其分类精确度、召回率、F1值、时间性能和加速比。结果表明改进后的模型在Spark平台上处理大数据时具有非常明显的优势。
其他文献
绩效考核作为一种有效的管理手段,在评价和激励员工,增强企业竞争力和活力,促进企业发展、提高市场地位等方面发挥着至关重要的作用。因此,绩效考核正被国内外各类企业广泛使
近几年,在智能手机追求轻与薄的趋势下,电池受智能手机体积的限制使得电量难以增加。同时,智能手机CPU的核数与频率的增加对电池电量的消耗也越来越大。用户在观看视频时,CPU
随着机器人应用领域的不断扩展,人们希望越来越多的智能型机器人能够参与到日常生活中来替代人完成各种复杂的工作。这些活动的性质使得机器人不得不与周围环境或者人进行交
在产品评论中,人们往往会针对某一属性作出评价,而意见解释信息会对评价进行解释,帮助其他消费者和商家更好的了解该产品。所以,解释性意见要素是评论中最重要的部分。解释性
现代大科学研究需要越来越多的大科学装置,其复杂性和规模达到了前所未有的程度。这类大型科学工程涉及多学科、长周期、大协同,需要管理海量三维模型及其技术状态,传统的数
LONG的交互假设认为二语习得是学习者与其他会话者,尤其是语言水平更高的人互动的结果。SWAIN的输出假设理论认为,当学习者产出目标语的时候,他们有机会注意并修正他们的错误
伴随着我国经济市场的不断开放,市场供求关系愈加紧张,供过于求的行业现状导致企业的市场份额和利润空间进一步被挤占,尤其对中小企业来说,企业的生存和发展面临着前所未有的挑战。过去,传统的企业成本管理模式仅是一味缩减企业的支出,虽然短暂增加了企业效益,但不能使企业保持长久的竞争优势。而在当今经济全球化、信息生态化的时代背景下,企业的长远发展不仅取决于其内部的竞争优势,还要依赖于市场、行业及其他外部环境,
意见挖掘研究近年来取得很大进展,但是现有的意见挖掘系统大多只关注褒贬意见,却忽略了意见背后的原因、事实细节、建议或条件等意见解释信息,而这些信息对基于意见挖掘的决
英语,作为一门外语或者第二语言,在全球化发展日益密切的今天有着举足轻重的意义。而英语阅读则始终是英语学习中最重要的组成部分之一,在实际高中英语课堂教学之中,阅读课无疑是促进学生整体英语能力提升的重要课型之一。纵观历年高考英语试卷,阅读题型的分值也占据着试卷分值的主体。因此如何能够有效的提高学生的英语阅读理解能力已成为高中英语教学中的热点问题。二十世纪九十年代,英国著名的英语教育学家杰里米·哈默在他
随着计算机技术的快速发展,互联网内的各种社交网站大量兴起,其中最具代表的当属新浪微博和Facebook,它们在人际交往着起着不可替代的作用,是一种全新的社交方式,人们通过社