Hadoop十年 推动数据驱动型分析快速发展

日期: 2016-08-31 作者:Craig Stedman翻译:杨宏玉 来源:TechTarget中国 英文

Hadoop迎来了10周年的生日。关于Hadoop,有很多大事件依然历历在目:Hadoop成为Apache的子项目并获得命名,第一版Hadoop代码发布,第一批用户部署了该代码。为了纪念这些事件,大数据供应商的高管们为该分布式处理框架过去十年中在数据管理和分析处理上的影响给予了高度的赞誉。 很多人在促使Hadoop落地中扮演了重要角色。

Doug Cutting是该项技术的联合创造者,他现在是Hadoop分销商Cloudera的首席架构师,他表示,Hadoop架构已经可以让数据驱动业务,而且这是发生在企业核心的。同为联合创造者的Mike Cafarella是一名计算机科学专业的教授并且是分析初创……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

Hadoop迎来了10周年的生日。关于Hadoop,有很多大事件依然历历在目:Hadoop成为Apache的子项目并获得命名,第一版Hadoop代码发布,第一批用户部署了该代码。为了纪念这些事件,大数据供应商的高管们为该分布式处理框架过去十年中在数据管理和分析处理上的影响给予了高度的赞誉。

很多人在促使Hadoop落地中扮演了重要角色。Doug Cutting是该项技术的联合创造者,他现在是Hadoop分销商Cloudera的首席架构师,他表示,Hadoop架构已经可以让数据驱动业务,而且这是发生在企业核心的。同为联合创造者的Mike Cafarella是一名计算机科学专业的教授并且是分析初创公司Lattice Data的CEO。他说在Hadoop出现之前,企业都是将海量的但确实很有价值的分析工作束之高阁,这都是由关系型数据库的处理限制所致。

Sean Suchter所在Yahoo的Web搜索技术团队于2006年成为Hadoop的第一个生产用户,Suchter现在是Hadoop性能管理初创公司Pepperdata的CEO:他说:“几乎任何一家你能找到的企业都关心数据的Hadoop之旅。”Raymie Stata十年前是Yahoo负责搜索与广告系统的首席架构师,而现在是大数据云服务提供商Altiscale的老板,他称赞Hadoop可以让程序员和分析师直接访问企业的所有数据,并绕过那些传统数据仓库环境中会让一切变得迟缓的数据上的复杂环节。

从前辈那里有保留地接受赞扬是可以理解的。在这种情况下,在那些针对Hadoop的有价值的观点仍有可取之处。

商业界走上数据驱动分析的道路是不能归功于Hadoop的;数据仓库和商业智能系统要比二十年前更能在企业中找到出路。而且自助BI工具在2000年中期出现,它们赋予了业务用户分析能力。但Hadoop架构开辟了用于分析的新的数据类型,而且在技术和经济上还更具可行性——收集,处理和使用进入企业的信息。

就拿Uber来说。该公司曾遭遇分析上的停滞危机,直到去年利用Spark处理引擎和其他技术部署了一套Hadoop数据湖才得以解决。“从前,我们在企业内部所拥有的数据集无法用于分析,而如今就可以了,” Uber的一名资深软件工程师Vinoth Chandar说。“Hadoop环境已经成为所有分析数据的真理之源,”他补充道,他还指出Uber正寻求让每项决策都可以用数据驱动。

General Electric的GE Power Services部门是另一家正在使用基于Hadoop架构的组织,该架构由自助BI软件进行前端收费,他们由此创造了一个更为数据驱动化的文化。首席企业架构师Don Perigo说GE Power Services从四年前的120名员工使用传统BI和报告系统发展到拥有22000名用户的大数据平台。高管们设立了一个目标,就是让使用率达到业务部门的50%,而在某些部门,采用率达到了98%,Perigo说。

德克萨斯州大学MD安德森癌症中心预想同样的事情会在这里发生。“目前,大量数据还处于沉睡状态,无法获取和使用”, 分析与信息部的主任Bryan Lari说,“我们的目标是让每一个人,从高管到管理员都使用数据来驱动决策。”

Hadoop 10年的里程碑已悄然来临。Spark正在将很多Hadoop架构中的MapReduce引擎推向一边,还有用可能的数据存储替代品来替代Hadoop Distributed File System——该框架的其他原始核心组件正如雨后春笋一般涌现出来。

Hadoop可能会演变成一组不同的组件,亦或是会慢慢淡出,其他成熟的大数据工具会替代它现有的位置。但即使后一种情况发生了,Hadoop产生的影响将会远远超过Cutting在十年前以其儿子的玩具象命名的时候对它的预期。而且它所培养的数据驱动环境会保留下来,这还是值得庆贺的。

翻译

杨宏玉
杨宏玉

TechTarget特邀编辑。北京邮电大学计算机科学与技术专业硕士。熟悉软件开发流程,对系统管理,网络配置,数据库应用等方面有深入的理解和实践经验。现就职于IBM(中国)投资有限公司,从事IBM服务器相关软件的开发工作。业余时间喜欢游泳登山,爱健身,喜欢结交朋友。

相关推荐