海量数据来袭 CIO无须紧张

来源 :计算机世界 | 被引量 : 0次 | 上传用户:wujie1983
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  网络搜索的结果、社交媒体内容和服务器日志,再加上来自供应链、工业、环境和监视等传感器的数据,这一切都使企业数据日益庞杂。目前,很多企业都淹没在海量数据中不知所措,他们不了解这些数据的真正价值也没有掌握管理、分析数据的IT手段。
  围绕数据分析工作,市面上出现了众多相关技术,帮助企业管理和分析多种多样的庞大数据集。在这个高级分析技术的领域,由于IT服务产品的价格持续下降,用户可以用更少的IT预算来获取完善的服务、进行更多的信息分析,解决更复杂的问题。
   随着分析技术的飞速发展和商业智能手段的日益高明,CIO现在完全可以做到大规模、低成本地分析业务数据。这也意味着,企业可以充分利用一切可利用的机会,获取更高的商业价值。
  勇于接受海量数据
  大数据是指庞大的数据集,尤其是那些未经组织、管理以适合传统数据仓库的数据集。虽然不是每一家公司都需要掌握处理庞大非结构化数据集的手段,但Verisk Analytics公司的CIO Perry Rotella认为,所有CIO都应该关注大数据分析工具。Verisk公司帮助金融公司评估风险,也帮助保险公司从理赔数据中识破欺诈,它在2010年的营收超过了10亿美元。Verisk公司的业务是“从你事先未知的数据中找到一定的模式和关联。”Rotella表示,企业的IT负责人应持数据越多越好的态度,并勇于接受海量数据。
  HMS公司专门帮助客户实施医疗保险和医疗补助计划,同时也为企业控制医疗保健成本,其业务覆盖美国40多个州的卫生和福利计划以及130多个医疗补助管理型医疗保健计划。在2010年,通过避免错误支付,HMS帮助客户追回了18亿美元的成本,省下了数十亿美元的开销。该公司的CIO Cynthia Nustad认为,大数据呈“爆炸式发展”的趋势,“我们在努力获取、跟踪、分析大量资料,包括结构化数据和非结构化数据,尽管有时你可能都不知道自己在数据中到底要寻找什么。”
  Hadoop是被谈论最多的大数据技术之一,作为一个开源的分布式数据处理平台,Hadoop最初被用来处理海量网页搜索之类的任务。最近它与另外几种所谓的“NoSQL”技术(包括CouchDB和mONGOdb)大行其道,正以新颖的方式管理大数据。
  Hadoop能够处理PB级数据,具体步骤是把海量数据的子集分配给上千台服务器,然后由主调度器核对和整理每一台服务器返回的处理结果。Hadoop既可以用来准备好数据以便分析,本身也可以作为一款分析工具来使用。如果企业没有成千上万台备用服务器,可以向亚马逊等云服务提供商购买服务,根据具体需要访问Hadoop。
  Nustad认为Hadoop有助于企业通过分析数据来识破欺诈和浪费现象,或许还可以用于分析多种格式的病人门诊记录。她表示,HMS确实在探究NoSQL技术的用途,但并非用于其庞大的医疗保险和医疗补助理赔数据库,因为这些数据库含有结构化数据,可以用传统的数据仓库技术来处理,而且为了大数据而弃用传统的关系数据库管理方法也不明智。
  作为一家比较购物网站,Shopzilla每天积累的数据多达数TB。其CIO Mulkey说:“我们用Hadoop来处理过去用数据仓库来处理的任务,更重要的是,它能让我们做一些以前无法实现的、真正能满足需求的分析工作。”以前,Shopzilla要为数据取样和分类——处理这么多数据,工作量非常大。现在借助Hadoop,Shopzilla就能分析原始数据,跳过中间步骤。
  像Rotella和Mulkey这种有Hadoop实践经验的CIO,他们所在的公司甚至会将数据分析服务当做一项业务来出售。
  提速
  从IT架构改革开始
  “分析速度提升将是一个更大的趋势,而大数据技术只是这个趋势当中的一部分。”肯塔基大学的CIO Vince Kellen认为,“我们需要用更高级的技术来分析海量数据,因为我们希望迅速地获得分析结果。所以数据多少不重要,重要的是分析数据的效率。”
  虽然几十年来,数据库一直通过缓存那些频繁访问的数据来提高性能,由于从磁盘获取数据在一定程度上是个机械过程,所以速度要比在内存中处理慢很多。现在看来,把庞杂数据全部装入到一台服务器或者多台服务器的内存中要更切实可行,磁盘只用来作备份。
  Rotella表示:“现在我可在几秒钟内执行分析任务,而五年前我们需要花整整一个晚上。”他们对庞大数据集进行预测性分析,通常需要经历启动查询、寻找模式、进行调整等环节,然后再启动下一个查询,查询的执行时间对于分析速度影响很大。“原来,我们运行模型比建立模型费时间,而现在建立模型比运行模型更费时间。”
  列式数据库服务器把数据库传统的组织方式颠倒过来。查询只访问相关的列,因而为评估几个关键列的应用程序提升了性能。为了提高分析性能,硬件同样很重要。保险和金融服务巨头John Hancock的CIO Allan Hackney已经开始尝试GPU加速的系统。他说:“可视化方面的运算与统计分析方面的运算非常相似,而GPU执行的运算速度比传统的PC和服务器处理器快几百倍。”
  开源技术压低成本
  从某种程度上说,计算能力的增加得益于内存和存储设备价格的不断下跌,此外有了付费产品之外的选择以及开源软件也迫使厂商降低价格。
  Ternent在加入Island One之前是Pentaho开源商业智能公司的技术副总裁,他积极倡导开源技术,“在我看来,开源为公平竞争创造了条件。”
  Ternent表示,开源工具一度只适用于基本的报告,而现在,它们提供了最先进的预测分析功能。“现在几乎所有领域都有开源厂商,这意味着谁有胆量用,谁就可以随意使用开源工具。”
  HMS的Nustad发现,不断变化的经济因素也在改变着IT架构方面的一些基本选择。比如说,构建数据仓库的一个传统原因是在拥有计算功能的服务器上把数据整合起来。以前计算功能比较稀缺时,CIO会把分析任务从操作系统卸载下来,以免拖累日常任务的性能,现在就没必要这么做了。由于省略了移动数据、格式化以及把数据装入数据仓库的步骤,CIO直接在操作应用上进行分析能更快地获得结果。
  不过Hackney表示,虽然现在的趋势正朝着有利于降低管理成本的方向发展,但节省的成本经常被增加的存储容量需求抵消。“这就像在原地跑步。虽然2011年John Hancock的存储成本下降了2%到3%,但存储使用量却增长了20%。”
  为员工设计终端界面
  对Nustad而言,移动商务是必须的。因为即使出门在外也要查看各种报告,了解公司是否履行了服务级别协议。她还希望让公司的客户可以通过移动设备访问自己数据,帮助他们监控和管理医疗保健开支。“这是一项客户非常喜欢的功能。五年前,客户不会要求提供这项功能,但现在他们对此非常关注。”
  对于CIO来说,应对这个趋势的关键不是提供复杂的分析功能,而在于为智能手机、平板电脑和触摸屏设计用户界面。Kellen觉得这问题很容易解决。
  但Rotella并不这么认为。“移动计算影响着每个人。使用iPad和其他移动设备办公的人越来越多,这个趋势会让员工使用企业计算资源的方式加速改变。”Rotella说,例如,Verisk开发了一种产品,可以让理赔员在现场访问分析结果,如此一来他们就能估算重置成本。这种方式可以充分利用分析结果,满足那些有需要的人。
  技术在迅速变化,这是让CIO最感头疼的事情。Rotella认为,“两年前,我们没有iPad;现在,大家出去都带着iPad。由于移动设备操作系统有很多种,我们要努力了解如何才能最有效地利用自己的开发资源,避免进行重复的开发工作。”
  Island One的Ternent表示,由于手机和平板电脑中浏览器的功能越来越强大,为每个移动平台开发原生应用程序的呼声也随之减弱,“如果我只需针对移动设备为基于Web的应用程序更换皮肤,就不一定非要开发定制的应用程序了”。
  分析混合型的
  社交媒体
  随着Facebook、推特等社交媒体遍地开花,越来越多的公司想要分析这些网站的数据。现在,市场上已经出现了新的分析应用软件,包含语言处理、情感分析和网络分析等统计方法,它们已不再属于典型的智能商务“工具包”。
  许多社交媒体的分析工具很新颖,常以服务的形式出售。一个突出例子是Radian6,该软件最近被Salesforce.com收入囊中。Radian6提供了一个仪表板,根据推特消息、Facebook公共帖子以及博客和讨论板会话上的帖子和留言,可以列出了提到品牌的各种评价。营销部门和客户服务部门买来这类工具后,基本上不需要麻烦IT部门。
  不过,肯塔基州大学的Kellen表示,对于这类工具,他还在观望。他说:“我的任务是,确定这些技术中哪一种适合自己,然后再对相应的人员进行培训。”
  与企业一样,肯塔基州大学也对监控其品牌评价很有兴趣。Kellen表示,他也有兴趣开发特定的应用程序,解决学校关注的具体问题,如学生流失等。例如,监控学生在社交媒体上发布的帖子可以帮助教职员工及早了解学生是否在学习上遇到了麻烦。戴尔公司的支持部门也会经常关注推特,以便及早发现是否有消费者发消息称自己的戴尔笔记本电脑坏掉的情况。Kellen表示,IT开发人员应想方设法,把社交媒体分析工具生成的报警机制融入到企业系统中,以便迅速应对那些事件。
  Hackney说:“我们缺少挖掘分析社交媒体上大量帖子的工具。一旦你拥有数据,就需要获得相关事件的足够信息,那样才能把它们关联起来。” Hancock已经在这方面刚开始迈出步伐,把社交分析服务提供的数据与企业数据关联起来。例如,如果数据显示中西部用户对公司的评论以负面为主,他就要看看公司是不是改变了在该地区的价格或政策,从而导致这个状况发生。
  Hackney表示,找出这种关联有利于说服公司领导相信分析社交媒体数据具有很高的投资回报率。
其他文献
据调研公司McKinsey
本报综合消息 近日,IT巨头频频出招,专利大战呈现愈演愈烈的趋势。  诺基亚、HTC与德国IPCom公司的专利侵权案宣布告一段落,欧洲专利局于4月25日判决IPCom的一项专利无效,意味着诺基亚、HTC的手机将可以继续在德国销售。这对于近期销售滑坡和信用评级遭下调的诺基亚来说,无疑是一个难得的好消息。此外,HTC对欧洲专利局的判决也表示欢迎,并称希望早日结束这场旷日持久的专利权纠纷。而IPCom则
“在英特尔的规划中,数字计算拥有三大支柱:第一是高性能,这主要依靠英特尔在处理器方面的投入;第二是强大的互联性,比如说万兆以太网;而最后的一个支柱就是安全。”迈克菲亚太区总裁Steve Redman认为,英特尔对安全战略的肯定非常有利于迈克菲的发展,“如果说我们跟其他安全厂商有什么不同,那么我可以举两个例子,一个是全球威胁智能感知系统(GTI),一个是开放架构。”  Steve Redman认为,
一部3.5英寸屏手持执法终端,外加一台袖珍热敏打印机,日前正在国内试点的卫生监督现场执法的新装备在马鞍山等地“惊艳”登场。  这只是卫生监督信息化建设即将在全国加速的前兆。虽然起步较晚,但在国家卫生监督中心的统筹推进下,一场“强健大脑”的行动,使得卫生监督信息化,有望自上而下地得以快速推进和普及。    2011年11月下旬的一天,安徽马鞍山市卫生监督局监督二科的科长刘洋与同事驱车来到当地一家宾馆
最近,我注意到业界对“新IT”和“老IT”的争论沸沸扬扬。对于IT企业来说创新才是常态,变化是一个永远的命题。所以我不认为IT本身存在着“新”“旧”之分。至于说,互联网对传统IT市场冲击的提法,我认为,互联网技术与服务是信息产业不可分割的一部分。信息技术每10~15年就有一次大变革,而这一次变革的关键,是基于云计算、大数据、移动互联和社会化网络。  从某种意义上看,互联网本身并不是一个行业,互联网
“如果没有创业,你现在会在干什么?”  “没有如果,我一定正在创业。”  面对记者的提问,北京光年无限科技有限公司CEO俞志晨回答得很干脆。  见到俞志晨,是在中关村微软研发集团的大厦里。作为Window Azure云加速平台第一期获得支持的10家企业之一,俞志晨和他的团队搬进了这栋大厦办公刚刚一星期。“条件一下子好了很多。”这使北京光年无限科技有限公司的员工们都很兴奋。  这是一个典型的学生创业
Zynga 2011年净亏损  4亿美元  本报讯 Zynga今天发布了2011财年第四季度及全年财报。报告显示,Zynga第四季度营收为3.112亿美元,高于去年同期的1.958亿美元,净亏损为4.35亿美元。该业绩超出了华尔街分析师预期,但盘后股价仍下跌近4%。整个2011财年Zynga净亏损4.043亿美元。  开发者对Android平台  热情消退  本报讯 据移动软件数据分析公司Flur
本期《脱胎容易换骨难》是一篇全方位诠释和审视工业互联网的文字。云计算、物联网、数据分析等技术带来的新生产力革命几乎瞬间而至,商业世界的发展开始由数据决定,人的主观意识不可避免地服从于数据采集和计算之后的最合理答案。精确、高效而不是模糊、迟滞。可以想见,就如同十多年前互联网带给人类世界的彻底变革一样,新生产力革命也必将带来我们很多固有习惯、思维的变革,比如:  员工面临的挑战  “我找不到足够的拥有
从苏南硕放国际机场驱车10分钟,一组北美校园风格的建筑群跃入眼帘。醒目的ZPark标志仿佛提醒人们来到了中关村软件园。“这里是中关村软件园太湖分园的东门,就在312国道边上。园区的北边是沪宁高速公路,离无锡新区高铁站也很近。”中关村软件园太湖分园招商人员介绍道。  建设高科技园区,交通是否便利、生态环境是否优美都是必备要素。中关村软件园太湖分园濒临太湖,西接湿地,南靠望虞河,周边是无锡(太湖)国际
据调研公司Forrester的研究显示,几乎三分之二的企业承诺会为员工、合作伙伴和客户加强对移动设备的支持。Forrester称,64%的企业在加大支持移动设备的力度,以满足员工的需求。  据企业无线服务提供商iPass近期开展的研究显示,由于所在企业采取自带设备(BYOD)政策,许多员工每周不领薪的工作时间增加长达20个小时。  Forrester最近调查了北美和欧洲2300多名IT移动决策者和