Hadoop的商业触角

来源 :中国信息化 | 被引量 : 0次 | 上传用户:deadhorse
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  “大数据”有多热?美国国家海洋与大气管理局利用“大数据”进行气象、生态系统、天气和商务研究。《纽约时报》使用“大数据”工具进行文本分析和Web信息挖掘。迪斯尼则利用它们关联和了解跨不同商店、主题公园和Web资产的客户行为。
  “大数据”不仅适用于大型企业,而是适用于各种不同规模的企业。例如,通过评估某位客户在网站上的行为,来更好地了解他们需要什么支持或寻找什么产品,或者弄清当前天气和其他条件对于送货路线和时间安排的影响。
  面对“大数据”,Hadoop为揭示深奥的企业与外部数据的关键内幕提供了基础。从技术上看,Hadoop分布式文件系统(HDFS)保证了大数据的可靠存储,而另一Hadoop核心组件MapReduce则提供高性能并行数据处理服务。这两项服务提供了一个使对结构化和复杂“大数据”的快速、可靠分析变为现实的基础。
  虽然关于Hadoop和MapReduce的使用案例和优势,已经经历了过度的渲染,但毫无疑问的是,它的确提供了相对低成本的方法,可从非常庞大的散乱数据中挖掘出可观的商业价值来。
  此外,最近几年,Hadoop已获得来自商业分析和数据库厂商的稳固支持,这些厂商已开始提供Hadoop产品和服务。因此,许多业内人士认为,在这种情况下,Hadoop“生态系统”的爆发式增长可以预期。这一点很快就得到了IDC的肯定,最近IDC发布报告显示,用于大数据分析的Hadoop和MapReduce编程框架相关的软件市场将会从2011年的7700万美元暴涨至2016年的8.128亿美元,年复合增长率为60.2%。
  在线旅游
  那么,一提到在线旅游服务提供商你会想到谁?携程、艺龙还是酷讯呢?那么你知道Expedia.com吗?它是全球最大的在线旅游公司,是艺龙最大的股东,还收购了酷讯,并在中国成立了全资子公司到到网。
  从根本上来讲,Expedia是一家技术公司,需要把有许多知识产权和商务智能数据放入整体的解决方案当中,所以他们根本就没有考虑托管的方式,而是选择了Hadoop。
  Expedia公司大约拥有4000名技术人员,目前每天收集并索引的数据量达到了6TB的级别。这些数据源自于27000个服务器、网络交换机、设备等终端。一年前,公司使用了大概20多个工具来管理这些数据。有一些是内部开发的,有一些则是开源的软件。Expedia目前正在将Splunk产品集成到大数据环境当中,它们运行了开源的Apache Hadoop分布式文件系统来存储并分析点击流数据等信息。
  衍生开发
  以前,拥有博士学位背景的人才能使用Hadoop,但是例如医院和银行这样的机构,并没有这样的人员。Hadoop的配置和管理的确很让人痛苦。现在Cloudera提供了更容易的可以让普通人使用的Hadoop。
  Cloudera成立于2007年3月,是中国卓越的云计算服务提供商,拥有丰富的云计算平台服务经验。其业务领域涵盖:企业信息化系统、企业门户建设、应用软件开发、系统集成及商务智能等多种IT产品与服务。
  Cloudera定位于将大数据通过Hadoop带给企业,既然是给企业使用,Cloudera的软件配置是为了让Hadoop的配置标准化,可以帮助企业安装、配置、运行Hadoop以达到大规模企业数据的处理和分析。采用最新的Hadoop 0.20,而是采用了Hadoop 0.18.3-12.cloudera.CH0_3的版本进行封装,并且集成了facebook提供的hive,yahoo提供的pig等基于Hadoop的sql实现接口,使得这些软件的安装,配置和使用的成本降低并且进行了标准化。当然除了集成和封装这些成熟的工具外,Cloudera一个比较有意思的工具是sqoop,目前这个工具没有独立提供。
  此外,为了使Hadoop distribution的安装和配置更容易,Cloudera建立了一个新的门户网站,也是免费的,叫做my.cloudera.com,在这个网站上,用户可以使用一个基于网络的配置工具生成客户软件包,并可优化符合他们的特殊需求。
  目前,阿里巴巴、百度、中移动等大公司也纷纷加入Hadoop行列。IBM宣布在Hadoop上建立新的存储架构,作为群集运行DB2或Oracle数据库,目的是让应用程序,支持高性能分析,数据仓库应用程序和云计算的目的。EMC也推出了世界上第一个定制的、高性能的Hadoop专用数据协同处理设备——Greenplum HD数据计算设备,为客户提供了最强大、最高效率的方法,充分挖掘大数据的价值。互联网搜索巨头百度也在考虑使用Hadoop。不过,出于性能与安全的考虑,百度在采用Hadoop架构的时候,将Hadoop计算层进行了重新编写。
  电子商务
  亚马逊早在2009年就推出了亚马逊弹性MapReduce(Amazon Elastic MapReduce),绝非很晚进入Hadoop领域。所以说,亚马逊对Hadoop的需求和应用可谓了若指掌,无论用户是运行试点项目的新手,还是内部部署的预置型系统遇到需求过载时,利用弹性MapReduce来获取额外容量的专业人士。
  在国内,淘宝数据平台使用的Hadoop集群是全国最大的Hadoop集群之一,它支撑了淘宝整个数据分析工作。整个集群最多达到1700个节点,总容量24.3PB,已经使用13.87PB。每天在集群之上运行的作业约40000道,扫描数据1.7PB,输出结果约235TB。
  此外,eBay是Hadoop技术的重要使用者,因为其要管理一个庞大的个人卖家市场,卖家数量达到1000万以上。而Ebay在用Hadoop服务90天后,纯利润增加了3%。
  社交网站
  Last.fm创办于2002年,它是一个提供网络电台和网络音乐服务的社区网站,向用户提供很多服务,例如免费听音乐和音乐下载,音乐及重大事件推荐,个性化图表服务以及其他很多服务。随着Last.fm服务的发展,用户数目从数千增长到数百万,这时,存储、处理和管理这些用户数据渐渐变成一项挑战。幸运的是,当大家认识到Hadoop技术能解决众多问题之后,Hadoop的性能迅速稳定下来,并被大家积极地运用。2006年初,Last.fm开始使用Hadoop,几个月之后便投入实际应用。
  而Facebook引入Hadoop技术的原因有些类似,它同样存在着网站上需要处理和存储的日志和维度数据激增的问题。不同的是,此前Facebook使用的数据仓库是在Oracle系统上实现的,在遇到扩展性和性能方面的问题之后,开源的Hadoop开始被引入。当然,这是有成功案例做比照的,Yahoo内部就一直使用这一技术来完成后台数据处理需求,而Google提出并普及使用的MapReduce模型具有优秀的简单性和可扩展性。
  目前,Facebook、Google和Yahoo这样的网站,最初开发Hadoop的目的是,通过数以千记的计算机将文本和日志数据集中在一起,将数据放在他们的网站上,观察用户的使用习惯,但是所有处理万亿字节非结构化信息的公司,也必将在更多的领域使用Hadoop。
其他文献
根据单机工业试验,对蒙自矿冶白牛选矿厂摇床的总尾矿采用悬振锥面选矿机进行再选工艺的改造。改造后,整个选厂的锡金属回收率提高了8~10个百分点。选矿指标良好,为公司创造
目的探讨高度近视白内障小切口非超声乳化摘出人工晶状体植入术的手术效果.方法对眼轴>26mm高度近视白内障49例(56眼)实施小切口非超声乳化摘出人工晶状体植入术.结果术后1月
当你阅读这本著作时,你会发现,作者的每句话都是真知灼见。更难得的是,作者讲述了大量的故事来说明这些论点。作为译者,同时又是这两位作者创立的“领越领导力研修”课程的讲师,编译团队在翻译过程中,更深刻地领悟到他们的领导力理念。整个翻译的过程让我们受益匪浅。而两位大师级人物语言运用的精美与生动,又是译者学识水平难以企及的。  两位作者是领导力学术研究领域的大师。他们在统计学、案例分析、组织行为学等多个领
文章从粮食安全、环境保护及海洋经济可持续发展角度论述了营建珠江口海洋牧场的必要性和重要性,并就如何在该海域建造海洋牧场及保障措施,提出了具体的设想和建议。
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
会议
矿石低频振动挤压破碎过程中,针对破碎能耗模型描述的复杂性,提出利用分形理论建立破碎能耗预测模型。以板辊式低频振动破碎实验机为研究对象,结合分形理论,分析单颗粒碎后质
银行、园区、企业,在融资的链条上,三者正逐渐融合,探索出一条新的合作之路。  探索一种新的合作模式,能够调动更多力量去支持中小企业发展,越来越成为更多银行考虑的问题。近日,记者采访一些工业园区,发现银行通过园区,有针对性地为一些资金短缺的企业服务,已是一种较为有效的方式。以浦发银行为例,其总行在全国范围内推行的“银元宝”合作模式,取银行、园区、担保公司共同合作之意。与传统模式不同的是,“银元宝”模
要向信息驱动型企业转型,企业要做到整合数据综合分析,为业务部门进行业务优化和增值服务,从而体现数据的价值。  “我叫方叶,开出租有5、6年了吧,刚开始觉得这份工作挺随意的,现在随着北京堵车,活儿越来越难,挣的钱越来越少。运气好的话一天赚七八百,运气不好一天赚四五百。有一天三个人找到我说要帮助我进行一个项目,说是能少时间多赚钱。经过分析,他们说我运营区域只局限在熟悉区域;行车习惯不好导致油耗过高;无