换个姿势聊聊数据库和大数据工具

日期:2016-10-8作者:Jack Vaughan

【TechTarget中国原创】

随着数据管理和商业智能可选方案的倍增,要为IT团队指定学习课程也是越来越不容易了。John Myers是Enterprise Management Associates公司负责BI和数据仓库管理研究的总监,评估各种方案的短期和长期影响是他的职责之一,他对云计算、Spark和各种不同类型的数据库都在关注。他表示,现在的关键趋势是,用户在向支持不同平台且能妥善解决数据处理问题的架构转移。

当今时代工作任务种类繁多和任务处理机制逐渐多样化,对此您有什么看法?

John Myers:我们真正看到的是混合数据生态系统的出现。我们并不指望单个数据管理平台就能满足所有数据处理和管理需求。人们在考虑Hadoop和NoSQL技术,例如考虑Mongo和Cassandra。

也可能利用如Apache Spark或者其它不同类似的数据库,对吗?

Myers:是的,我认为Spark更是一个处理引擎,而不是数据管理平台。

一般来说,我们考虑数据管理系统的时候,会考虑满足ACID标准,还有就是要关注其持久性。Spark是很好的处理引擎。但是,它仍然需要其它持久化组件的配合。Spark必须依托于其它产品一起应用,要处理的数据需要留存和在某个地方管理。Spark正在变得越来越好,我不知道是否你曾经考虑把Map Reduce和Yarn与Spark融合考虑。这是启动转向非常好的平台,虽然它只发展了两三年。从这个角度讲,它还有很多工作要做,还要学习其它引擎的很多东西,这还需要一段时间。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

评论
查看更多评论

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

作者>更多

Jack Vaughan
Jack Vaughan

TechTarget新闻记者和网站编辑,主要关注数据管理领域的技术趋势和动态。

大数据分析>更多

相关推荐

技术手册>更多

  • 预测分析与数据挖掘集锦

    数据挖掘、预测分析以及相关业务建模技术几乎完全是由高技能高工资的统计学家、数学家和定量分析师所使用。但随着商务智能和分析厂商提供更方便用户使用的预测分析工具,这一情况正在发生变化。

  • SQL Server 2012商务智能手册

    在本技术手册中,TechTarget数据库与SearchBI网站编辑将为您解读SQL Server 2012的理念,分析其可视化与集成服务功能,并提供一些在大数据领域的应用见解。

  • 数据集成建模指南

    数据集成流程的开发类似于数据库的开发。在开发数据库过程中,业务需求的蓝图或者模型必须确保对需要的部分有清楚的理解。

  • SQL Server 2008新特征

    本专题主要介绍SQL Server 2008的新增特征:SQL Server 2008中的T-SQL基本对象和操作、T-SQL的函数类型和数据类型以及新的安全特性等等。

TechTarget

最新资源
  • 安全
  • CIO
  • SOA
  • 数据库
  • 网络
  • 云计算
【TechTarget中国原创】

随着数据管理和商业智能可选方案的倍增,要为IT团队指定学习课程也是越来越不容易了。John Myers是Enterprise Management Associates公司负责BI和数据仓库管理研究的总监,评估各种方案的短期和长期影响是他的职责之一,他关注云计算、Spark和各种不同类型的数据库。他表示,现在的关键趋势是,用户在向支持不同平台且能妥善解决数据处理问题的架构转移。

当今时代工作任务种类繁多和任务处理机制逐渐多样化,对此您有什么看法?

John Myers:我们真正看到的是混合数据生态系统的出现。我们并不指望单个数据管理平台就能满足所有数据处理和管理需求。人们在考虑Hadoop和NoSQL技术,例如考虑Mongo和Cassandra。

也可能利用如Apache Spark或者其它不同类似的数据库,对吗?

Myers:是的,我认为Spark更是一个处理引擎,而不是数据管理平台。

一般来说,我们考虑数据管理系统的时候,会考虑满足ACID标准,还有就是要关注其持久性。Spark是很好的处理引擎。但是,它仍然需要其它持久化组件的配合。Spark必须依托于其它产品一起应用,要处理的数据需要留存和在某个地方管理。Spark正在变得越来越好,我不知道是否你曾经考虑把Map Reduce和Yarn与Spark融合考虑。这是启动转向非常好的平台,虽然它只发展了两三年。从这个角度讲,它还有很多工作要做,还要学习其它引擎的很多东西,这还需要一段时间。

对于某些使用案例,Spark的运行效果非常好。但是有些案例中,如果持续运行,Spark会比其它处理引擎运行的慢,这对任何平台都是一样的,完全取决于你希望解决什么问题。

回到关系数据库的本质,如果你想让关系数据库系统来实现加减乘除是很容易的,它一天到晚都在做这种任务。40年来大家一直在这么用它。

另一方面,如果你让关系数据库像Neo4j或者Objectivity(InfiniteGraph)这种图形数据库做图分析,这就非常困难了。你必须让关系数据库做非常复杂的递归关联,这都不是关系数据库擅长的事情,它本来设计定位就不是用来干这个的。

然而,如果你使用图数据库做图分析,你可以查询“朋友的朋友的朋友是谁?”图数据库会给你返回结果清单。但是如果你让图数据库计算加减乘除,它处理效果可能不尽如人意。

你会发现人们想知道应该选择哪个平台。但是,我想强调的是,要为使用多个平台协作解决问题留足空间。

您如何看待业务方面对大数据分析新状态的反应呢?

Myers:业务涉众对大数据分析会发生什么感到好奇。我们过去五年来针对这个主题的研究发现,大数据项目的实施几乎总是能带来收入增加,会降低成本和提高利润率。

我们发现很多项目都可以帮助增加销售机会。另一个问题是风险转移,包括风险缝隙的形式和欺诈检测管理。推动这些项目会给业务涉众带来价值。

事实上,IT人员可以给Hadoop中加载数据,但是他们不知道下一步该干什么。同时,业务人员不一定会说:“把Hadoop中的客户数据和企业数据仓库中的客户数据对比一下,然后给我”。相反,他们只会说“给我客户数据。”

由此可见,获取事件级别或者行为数据是IT团队的任务,例如从在线应用或者移动应用获取点击流数据,这些数据可能存储在Hadoop平台;然后把这些数据与数据仓库中的数据做关联,以便带来真正的价值。

大数据和这些不同的数据库类型正在帮我们把点击流数据和策划数据整合到一起,这样我们可以获得更好的利润、交叉销售和更好的风险控制等等,可以这样说吗?

Myers:是的,正是如此。但是业务人员不会说“来,我们做大数据分析吧。”他们会说“我们要扩展信息领域,了解客户的更多信息。”