“数据池”误导企业IT架构发展方向

日期: 2014-05-22 作者:Barry Devlin翻译:陈洪钰 来源:TechTarget中国 英文

 近两年,“数据池”的概念声名鹊起,被广泛使用。但这个概念是否准确,是否暗示了正确的数据管理方法还有待商榷。

“数据池”一词最早是由软件供应商Pentaho的CTO James Dixon于2011年提出的。甫一出现,就得到调研公司CITO Research的Dan Woods和咨询公司Silicon Valley Data Science副总裁Edd Dumbill的追捧。有意思的是,随着“数据池”概念的广泛使用,它产生了很多变体。例如Pivotal(EMC针对云计算和大数据成立的软件公司)提出的“业务数据池”和Hadoop供应商Hortonworks提出的“企业数据池”的概念。

以上是数据池一词的发展,那么究竟什么是数据池呢?简言之,数据池意味着企业所有数据都可以,并应该存储在Hadoop中,所有业务应用都能平等地访问和使用数据。理想情况下的数据池相当于取代了所有数据仓库、数据集市甚至运营数据库。

咨询公司Silicon Valley Data Science副总裁Edd Dumbill认为,在数据池发展的最终阶段,所有的新应用都会搭建在Hadoop数据池上,都可以在Hadoop数据池上共享数据、治理数据、保护数据,只有很少一部分旧应用和个别应用会单独存在。这种观点也得到一些人的认可。现在让我们重新审视一下数据池的概念,撇开这种替换方法带来的逻辑问题和经济成本不谈,我们只看基础架构,试想:一个人会怎样搭建数据池?

数据池真的是个“池”吗?

单从字面上看,所谓池,意味着池中的水是完全等同的,它可以任意流动,不受任何限制,水的来源不需要加以区分,任何人都可以提取池中的水。但这些特点并不适用于业务数据,那么,为什么还要用“池”这个词?

也许,“池”这个词是区别于高度结构化、组织良好的数据仓库而言的。但是,虽然大数据时代产生了很多非结构化和半结构化数据,并不意味着我们一定要有同样非结构化的数据存储。而且,任何人都不会把已经得到妥善管理和正确理解的数据“倒入”模糊数据源的“数据池”中。

供应商与其发明新的营销口号,不如考虑不同类型的业务数据如何共存,为业务提供价值。虽然关于数据仓库架构的一些传统观念和要求已经过时了,但企业对高质量数据的需求没有变。业务仍然需要高度结构化和规范的数据存储。

当然,还有一些机器数据和社交媒体数据,可以用于感知趋势、预测市场变化,这些数据需要大规模的,廉价又灵活的数据存储。

多个技术支柱支撑的IT架构

虽然高度结构化的敏捷的数据环境之间各不相同,但企业需要把不同的数据环境连接到一起。单一信息提供的洞察力显然不如集群信息提供的洞察力。效果显著的架构应该是建立在多个技术支柱之上的,每一个支柱都针对特定的需求和处理类型做了优化,不同技术支柱之间的类似流程和元数据都能共享。这是与所谓的“池”完全不同的概念。

比喻总有不尽人意的地方。我记得上世纪八十年代我们讨论“数据仓库”这个词的时候,还担心“仓库”一词会给业务人员带来误解。事实证明真的是这样,后来我们又引进了数据集市的概念,不过“集市”一词有它的缺陷。我们在用一件东西比喻另一件东西的时候,一定会面临认知问题。而“数据池”这个词则导致了严重的认知不一致。或许我们应该把定义和解释新数据架构的话语权交给更专业的人士。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

相关推荐