论文部分内容阅读
“大数据”有多热?美国国家海洋与大气管理局利用“大数据”进行气象、生态系统、天气和商务研究。《纽约时报》使用“大数据”工具进行文本分析和Web信息挖掘。迪斯尼则利用它们关联和了解跨不同商店、主题公园和Web资产的客户行为。
“大数据”不仅适用于大型企业,而是适用于各种不同规模的企业。例如,通过评估某位客户在网站上的行为,来更好地了解他们需要什么支持或寻找什么产品,或者弄清当前天气和其他条件对于送货路线和时间安排的影响。
面对“大数据”,Hadoop为揭示深奥的企业与外部数据的关键内幕提供了基础。从技术上看,Hadoop分布式文件系统(HDFS)保证了大数据的可靠存储,而另一Hadoop核心组件MapReduce则提供高性能并行数据处理服务。这两项服务提供了一个使对结构化和复杂“大数据”的快速、可靠分析变为现实的基础。
虽然关于Hadoop和MapReduce的使用案例和优势,已经经历了过度的渲染,但毫无疑问的是,它的确提供了相对低成本的方法,可从非常庞大的散乱数据中挖掘出可观的商业价值来。
此外,最近几年,Hadoop已获得来自商业分析和数据库厂商的稳固支持,这些厂商已开始提供Hadoop产品和服务。因此,许多业内人士认为,在这种情况下,Hadoop“生态系统”的爆发式增长可以预期。这一点很快就得到了IDC的肯定,最近IDC发布报告显示,用于大数据分析的Hadoop和MapReduce编程框架相关的软件市场将会从2011年的7700万美元暴涨至2016年的8.128亿美元,年复合增长率为60.2%。
在线旅游
那么,一提到在线旅游服务提供商你会想到谁?携程、艺龙还是酷讯呢?那么你知道Expedia.com吗?它是全球最大的在线旅游公司,是艺龙最大的股东,还收购了酷讯,并在中国成立了全资子公司到到网。
从根本上来讲,Expedia是一家技术公司,需要把有许多知识产权和商务智能数据放入整体的解决方案当中,所以他们根本就没有考虑托管的方式,而是选择了Hadoop。
Expedia公司大约拥有4000名技术人员,目前每天收集并索引的数据量达到了6TB的级别。这些数据源自于27000个服务器、网络交换机、设备等终端。一年前,公司使用了大概20多个工具来管理这些数据。有一些是内部开发的,有一些则是开源的软件。Expedia目前正在将Splunk产品集成到大数据环境当中,它们运行了开源的Apache Hadoop分布式文件系统来存储并分析点击流数据等信息。
衍生开发
以前,拥有博士学位背景的人才能使用Hadoop,但是例如医院和银行这样的机构,并没有这样的人员。Hadoop的配置和管理的确很让人痛苦。现在Cloudera提供了更容易的可以让普通人使用的Hadoop。
Cloudera成立于2007年3月,是中国卓越的云计算服务提供商,拥有丰富的云计算平台服务经验。其业务领域涵盖:企业信息化系统、企业门户建设、应用软件开发、系统集成及商务智能等多种IT产品与服务。
Cloudera定位于将大数据通过Hadoop带给企业,既然是给企业使用,Cloudera的软件配置是为了让Hadoop的配置标准化,可以帮助企业安装、配置、运行Hadoop以达到大规模企业数据的处理和分析。采用最新的Hadoop 0.20,而是采用了Hadoop 0.18.3-12.cloudera.CH0_3的版本进行封装,并且集成了facebook提供的hive,yahoo提供的pig等基于Hadoop的sql实现接口,使得这些软件的安装,配置和使用的成本降低并且进行了标准化。当然除了集成和封装这些成熟的工具外,Cloudera一个比较有意思的工具是sqoop,目前这个工具没有独立提供。
此外,为了使Hadoop distribution的安装和配置更容易,Cloudera建立了一个新的门户网站,也是免费的,叫做my.cloudera.com,在这个网站上,用户可以使用一个基于网络的配置工具生成客户软件包,并可优化符合他们的特殊需求。
目前,阿里巴巴、百度、中移动等大公司也纷纷加入Hadoop行列。IBM宣布在Hadoop上建立新的存储架构,作为群集运行DB2或Oracle数据库,目的是让应用程序,支持高性能分析,数据仓库应用程序和云计算的目的。EMC也推出了世界上第一个定制的、高性能的Hadoop专用数据协同处理设备——Greenplum HD数据计算设备,为客户提供了最强大、最高效率的方法,充分挖掘大数据的价值。互联网搜索巨头百度也在考虑使用Hadoop。不过,出于性能与安全的考虑,百度在采用Hadoop架构的时候,将Hadoop计算层进行了重新编写。
电子商务
亚马逊早在2009年就推出了亚马逊弹性MapReduce(Amazon Elastic MapReduce),绝非很晚进入Hadoop领域。所以说,亚马逊对Hadoop的需求和应用可谓了若指掌,无论用户是运行试点项目的新手,还是内部部署的预置型系统遇到需求过载时,利用弹性MapReduce来获取额外容量的专业人士。
在国内,淘宝数据平台使用的Hadoop集群是全国最大的Hadoop集群之一,它支撑了淘宝整个数据分析工作。整个集群最多达到1700个节点,总容量24.3PB,已经使用13.87PB。每天在集群之上运行的作业约40000道,扫描数据1.7PB,输出结果约235TB。
此外,eBay是Hadoop技术的重要使用者,因为其要管理一个庞大的个人卖家市场,卖家数量达到1000万以上。而Ebay在用Hadoop服务90天后,纯利润增加了3%。
社交网站
Last.fm创办于2002年,它是一个提供网络电台和网络音乐服务的社区网站,向用户提供很多服务,例如免费听音乐和音乐下载,音乐及重大事件推荐,个性化图表服务以及其他很多服务。随着Last.fm服务的发展,用户数目从数千增长到数百万,这时,存储、处理和管理这些用户数据渐渐变成一项挑战。幸运的是,当大家认识到Hadoop技术能解决众多问题之后,Hadoop的性能迅速稳定下来,并被大家积极地运用。2006年初,Last.fm开始使用Hadoop,几个月之后便投入实际应用。
而Facebook引入Hadoop技术的原因有些类似,它同样存在着网站上需要处理和存储的日志和维度数据激增的问题。不同的是,此前Facebook使用的数据仓库是在Oracle系统上实现的,在遇到扩展性和性能方面的问题之后,开源的Hadoop开始被引入。当然,这是有成功案例做比照的,Yahoo内部就一直使用这一技术来完成后台数据处理需求,而Google提出并普及使用的MapReduce模型具有优秀的简单性和可扩展性。
目前,Facebook、Google和Yahoo这样的网站,最初开发Hadoop的目的是,通过数以千记的计算机将文本和日志数据集中在一起,将数据放在他们的网站上,观察用户的使用习惯,但是所有处理万亿字节非结构化信息的公司,也必将在更多的领域使用Hadoop。
“大数据”不仅适用于大型企业,而是适用于各种不同规模的企业。例如,通过评估某位客户在网站上的行为,来更好地了解他们需要什么支持或寻找什么产品,或者弄清当前天气和其他条件对于送货路线和时间安排的影响。
面对“大数据”,Hadoop为揭示深奥的企业与外部数据的关键内幕提供了基础。从技术上看,Hadoop分布式文件系统(HDFS)保证了大数据的可靠存储,而另一Hadoop核心组件MapReduce则提供高性能并行数据处理服务。这两项服务提供了一个使对结构化和复杂“大数据”的快速、可靠分析变为现实的基础。
虽然关于Hadoop和MapReduce的使用案例和优势,已经经历了过度的渲染,但毫无疑问的是,它的确提供了相对低成本的方法,可从非常庞大的散乱数据中挖掘出可观的商业价值来。
此外,最近几年,Hadoop已获得来自商业分析和数据库厂商的稳固支持,这些厂商已开始提供Hadoop产品和服务。因此,许多业内人士认为,在这种情况下,Hadoop“生态系统”的爆发式增长可以预期。这一点很快就得到了IDC的肯定,最近IDC发布报告显示,用于大数据分析的Hadoop和MapReduce编程框架相关的软件市场将会从2011年的7700万美元暴涨至2016年的8.128亿美元,年复合增长率为60.2%。
在线旅游
那么,一提到在线旅游服务提供商你会想到谁?携程、艺龙还是酷讯呢?那么你知道Expedia.com吗?它是全球最大的在线旅游公司,是艺龙最大的股东,还收购了酷讯,并在中国成立了全资子公司到到网。
从根本上来讲,Expedia是一家技术公司,需要把有许多知识产权和商务智能数据放入整体的解决方案当中,所以他们根本就没有考虑托管的方式,而是选择了Hadoop。
Expedia公司大约拥有4000名技术人员,目前每天收集并索引的数据量达到了6TB的级别。这些数据源自于27000个服务器、网络交换机、设备等终端。一年前,公司使用了大概20多个工具来管理这些数据。有一些是内部开发的,有一些则是开源的软件。Expedia目前正在将Splunk产品集成到大数据环境当中,它们运行了开源的Apache Hadoop分布式文件系统来存储并分析点击流数据等信息。
衍生开发
以前,拥有博士学位背景的人才能使用Hadoop,但是例如医院和银行这样的机构,并没有这样的人员。Hadoop的配置和管理的确很让人痛苦。现在Cloudera提供了更容易的可以让普通人使用的Hadoop。
Cloudera成立于2007年3月,是中国卓越的云计算服务提供商,拥有丰富的云计算平台服务经验。其业务领域涵盖:企业信息化系统、企业门户建设、应用软件开发、系统集成及商务智能等多种IT产品与服务。
Cloudera定位于将大数据通过Hadoop带给企业,既然是给企业使用,Cloudera的软件配置是为了让Hadoop的配置标准化,可以帮助企业安装、配置、运行Hadoop以达到大规模企业数据的处理和分析。采用最新的Hadoop 0.20,而是采用了Hadoop 0.18.3-12.cloudera.CH0_3的版本进行封装,并且集成了facebook提供的hive,yahoo提供的pig等基于Hadoop的sql实现接口,使得这些软件的安装,配置和使用的成本降低并且进行了标准化。当然除了集成和封装这些成熟的工具外,Cloudera一个比较有意思的工具是sqoop,目前这个工具没有独立提供。
此外,为了使Hadoop distribution的安装和配置更容易,Cloudera建立了一个新的门户网站,也是免费的,叫做my.cloudera.com,在这个网站上,用户可以使用一个基于网络的配置工具生成客户软件包,并可优化符合他们的特殊需求。
目前,阿里巴巴、百度、中移动等大公司也纷纷加入Hadoop行列。IBM宣布在Hadoop上建立新的存储架构,作为群集运行DB2或Oracle数据库,目的是让应用程序,支持高性能分析,数据仓库应用程序和云计算的目的。EMC也推出了世界上第一个定制的、高性能的Hadoop专用数据协同处理设备——Greenplum HD数据计算设备,为客户提供了最强大、最高效率的方法,充分挖掘大数据的价值。互联网搜索巨头百度也在考虑使用Hadoop。不过,出于性能与安全的考虑,百度在采用Hadoop架构的时候,将Hadoop计算层进行了重新编写。
电子商务
亚马逊早在2009年就推出了亚马逊弹性MapReduce(Amazon Elastic MapReduce),绝非很晚进入Hadoop领域。所以说,亚马逊对Hadoop的需求和应用可谓了若指掌,无论用户是运行试点项目的新手,还是内部部署的预置型系统遇到需求过载时,利用弹性MapReduce来获取额外容量的专业人士。
在国内,淘宝数据平台使用的Hadoop集群是全国最大的Hadoop集群之一,它支撑了淘宝整个数据分析工作。整个集群最多达到1700个节点,总容量24.3PB,已经使用13.87PB。每天在集群之上运行的作业约40000道,扫描数据1.7PB,输出结果约235TB。
此外,eBay是Hadoop技术的重要使用者,因为其要管理一个庞大的个人卖家市场,卖家数量达到1000万以上。而Ebay在用Hadoop服务90天后,纯利润增加了3%。
社交网站
Last.fm创办于2002年,它是一个提供网络电台和网络音乐服务的社区网站,向用户提供很多服务,例如免费听音乐和音乐下载,音乐及重大事件推荐,个性化图表服务以及其他很多服务。随着Last.fm服务的发展,用户数目从数千增长到数百万,这时,存储、处理和管理这些用户数据渐渐变成一项挑战。幸运的是,当大家认识到Hadoop技术能解决众多问题之后,Hadoop的性能迅速稳定下来,并被大家积极地运用。2006年初,Last.fm开始使用Hadoop,几个月之后便投入实际应用。
而Facebook引入Hadoop技术的原因有些类似,它同样存在着网站上需要处理和存储的日志和维度数据激增的问题。不同的是,此前Facebook使用的数据仓库是在Oracle系统上实现的,在遇到扩展性和性能方面的问题之后,开源的Hadoop开始被引入。当然,这是有成功案例做比照的,Yahoo内部就一直使用这一技术来完成后台数据处理需求,而Google提出并普及使用的MapReduce模型具有优秀的简单性和可扩展性。
目前,Facebook、Google和Yahoo这样的网站,最初开发Hadoop的目的是,通过数以千记的计算机将文本和日志数据集中在一起,将数据放在他们的网站上,观察用户的使用习惯,但是所有处理万亿字节非结构化信息的公司,也必将在更多的领域使用Hadoop。