Hadoop不会单独存在,需与EDW集成

日期: 2014-03-04 作者:Jack Vaughan翻译:陈洪钰 来源:TechTarget中国 英文

随着大数据时代的到来,海量的数据涌入组织,给原有数据仓库系统带来巨大的压力,部署大数据软件已经迫在眉睫。当然,这也并不是说原有数据仓库完全过时了,只是需要给大数据一定的空间。

美国一家数据仓库研究所的数据管理调查总监Philip Russom表示:“这些年有很多不同风格的数据仓库架构兴起。随着数据量越来越多,数据类型越来越多样化,我们对大数据的需求会越来越旺盛。

Hadoop兴起的时候,很多人认为传统数据仓库的时代要终结了。不过现在我们看到,二者还是能够共存的。在2012年十月数据仓库研究所开展了相关调查,在263名IT专业人士、业务用户和咨询顾问中,有78%认为Hadoop系统是数据仓库的很好的补充,用来支持高级数据分析应用。另外,41%的受访者认为Hadoop是信息与EDW(企业数据仓库)之间有效的中转站。对于Hadoop集群能否完全替代EDW这个问题,超过一半的受访者都认为不会,只有4%认为会。

Russom认为企业大数据技术的立足点在于使用Hadoop将数据加载到数据仓库中。不过这只是数据仓库的一个方面,而且近几年技术也在不断变化。通常,原始数据都会存放在Hadoop集群中,也会在那里做最初的分析。以前,数据在进入数据仓库之前只是短暂的存放,现在Hadoop可以实现长时间存放,已经变成一个档案馆了。

大数据战略

Russom认为Hadoop不会单独存在。很多数据还是要存放到EDW中,也许会以汇总的分析结果的形式存在。他在数据仓库研究报告中写道:“Hadoop分析工具有时会部署在筒仓内,但Hadoop与数据仓库的发展趋势是相互集成的,这样才能最大限度地提升处理速度。”

Gartner分析师Mark Beyer表示,为避免产生单独的信息筒仓,企业应该一开始就把大数据项目合并到整体数据管理战略中来。这需要考虑如下问题:大数据究竟从何而来?大数据需要保存多长时间?使用之前需要进行处理吗?

Beyer认为在大数据池中应用数据管理系统时,要广泛引入数据,包括Facebook、Twitter和其他社交网站这些Beyer认为的“大众数据源”渠道。对于这些数据,组织只需要了解它的起源和影响,比如它的快速变化对大数据管理有多重要。

Beyer提醒道,大数据集并不比其他数字信息准确,通常来讲是没有其他数字信息准确。大数据更像一个入侵者,它会毁灭东西,而你无法控制它。”而一旦你控制住了它,你就能有效利用收集的信息了。

大数据时代的挑战

大数据还面临很多技术困难,包括数据质量和数据治理。对很多企业来说,部署Hadoop集群需要MapReduce技术,这就是一个不小的挑战,保持Hadoop的高性能运作更难,早期的Hadoop版本扩展性不好,运行MapReduce批处理程序也收到限制。

去年十月发布的Hadoop 2.0版本解决了这些问题,对非MapReduce程序开放了框架,增加了集成和高可用性功能以提高扩展性和集群正常工作的时间。也有供应商引进了查询引擎,支持对Hadoop数据的实时分析。雅虎等用户配备了YARN资源管理器,捕获流数据。

这些技术在给大数据管理和分析带来帮助的同时,也IT数据仓库和数据管理人员的工作量,他们需要规划和管理更多的部署。会有越来越多的企业面临这样的问题。在数据仓库研究所的调查中,只有10%的受访者表示应用了Hadoop,不过51%的受访者预计在三年内使用Hadoop。

组织大数据战略的重点将落在IT团队上,看他们如何部署可扩展的大数据系统,如何将系统与现存数据仓库、分析和运营环境集成。IT团队需要正确的技术,科学的管理流程,才能应对大数据时代的挑战。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

作者

Jack Vaughan
Jack Vaughan

TechTarget新闻记者和网站编辑,主要关注数据管理领域的技术趋势和动态。

相关推荐