走出沙盒:Hadoop数据管理重要性提升

日期: 2013-04-26 作者:Jack Vaughan翻译:张亮亮 来源:TechTarget中国 英文

在处理日益增长的非结构化和半结构化数据过程中,Hadoop文件系统及MapReduce框架已经成为出镜率最高的技术名词。但作为数据管理技术领域的新手,Hadoop要想获得更广泛的成功,成熟的数据管理软件工具是必不可少的。

  在Web应用方面Hadoop已经证明了自己,但是迄今为止大多数的工作也仅仅归为POC的范畴。健壮的管理能力缺失是造成这一现象的主要原因,然而事情正在发生改变:在企业中,Hadoop有待于更进一步的融入运营工作流,以期带来更好的安全性和查询功能。

  很显然,厂商对Hadoop数据管理工具的关注正在升温。最近来自于IBM和Teradata的公告中称,他们期待有方法可以利用开源Hadoop来满足主流企业的一般性运营需求。

  事实上,有许多企业在沙盒(Sandbox)中运行Hadoop项目,让基于Java的Hadoop集群与网络分离并隔离在一个封闭空间内,只有少数人可以对其进行访问。为什么要这样做呢?原因就是他们无法保证系统中是否存在敏感数据,如果这些信息被泄露出去,那么公司可能会惹上大麻烦。

  沙盒模式并不是新鲜事物,很多新技术都会经历这样一个“自我封闭”的阶段。父母在某种程度上会因为他们的孩子在沙盒中玩耍而感到安心,至少很多可能的意外会在沙盒中得以限制。这同样适用于需要部署新技术的数据管理者。

  Hadoop做为一个暂存区

  Teradata的市场副总裁Steve Woolidge向TechTarget记者介绍,Teradata Enterprise Accesse对于Hadoop软件推广的重点在于安全性的提升,工作负载管理以及SQL访问。这些功能需求为实现更好的Hadoop框架指明了道路。

  Woolidge并不认同Hadoop是作为实验性技术而面向用户的观点,他认为Hadoop一种类似于数据预处理区的东西,可以将它看做是一个存储大量不同类型数据的暂存区。

  Hadoop文件数据的优势之一就是公司不用对其进行转换就可以存储。但是下一步会更加复杂:Hadoop获得信息容易,但取出信息就困难许多。

  Teradata的新工具包括Smart Loader for Hadoop,它可以为业务分析师提供Hadoop集群和负载工作,同时SQL-H软件可以用来查询Hadoop数据。对于终端用户,SQL-H使得大数据更便于管理。此外,在Hadoop上加一个SQL-H层意味着你可以对在Hadoop系统中可见的表实现的行级安全性。

  不再轻率以待

  据IBM软件集团的营销主管Bernie Spang说,许多公司已经度过了Hadoop的实验阶段,这意味着Hadoop管理能力正在更多的走向台前。Spang说:“现在他们正把Hadoop应用到企业问题中去,而人们不得不对一些细节进行处理。”

  IBM近期推出了其PureData System的新版本,它可以用来优化Hadoop应用程序。这个一体化产品是为了简化管理工作流程,为Hadoop相关的工作提供必需的支持和安全性保障。

  Spang表示,很多企业已经将Hadoop做为一种快速数据分片的工具。企业日益增加对这项技术的应用,但这并不意味着Hadoop系统已经真正成熟,相信更多的Hadoop项目还会处于沙盒阶段。

  但是,虽然开源是Hadoop的一个主要卖点,但是行业内的一般经验是,企业软件管理工具更在意开源领域之外的东西。对于许多主流操作很可能会需要一些周边工具来实现,并且这些中的许多将会是商业工具。改进Hadoop数据管理会是今年需要密切关注的一个趋势。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

作者

Jack Vaughan
Jack Vaughan

TechTarget新闻记者和网站编辑,主要关注数据管理领域的技术趋势和动态。

翻译

张亮亮
张亮亮

TechTarget特邀编辑。毕业于北京邮电大学网络技术研究院。熟悉软件开发测试的各个环节和流程,对操作系统,数据库,计算机网络等有较为深入的理解。现就职于中国电子科技集团公司下属研究所,从事软件研发工作。热衷于英文的学习交流,平时喜欢户外运动,音乐,电影。

相关推荐