HP Vertica用户心声: Hadoop做数据分析仍不够完美

日期: 2015-09-08 作者:Ed Burns翻译:曾少宁 来源:TechTarget中国 英文

对于许多人而言,Hadoop已经成为了大数据的代名词。它非常适合用于处理大数据流行定义中的三个V:数据量大(volume)、流动速度快(velocity)和数据类型多(variety)。但是,在处理一些迭代数据较多的数据科学工作时,如创建预测模型或数据可视化,这个分布式处理框架通常很少能发挥直接作用。

Hadoop分布式文件系统(HDFS)已经进化为可以存储大量不同类型的数据,而且近几年里出现了各种各样专门简化从Hadoop获取分析数据的开源项目和商业技术,比如在Hadoop查询引擎上使用SQL的新特性。但是,惠普Vertica分析型数据库的用户指出,这些工具并不能完成他们企业内的预测建模或数据可视化工作,因此这将限制在分析应用中使用Hadoop的潜在优势。

本月在美国波士顿举行的2015年惠普大数据年会(HP Big Data Conference 2015)上,电商网站Etsy公司的高级数据库工程师Chris Bohn向TechTarget记者表示:“Hadoop是一个面向批处理的系统,虽然他们尽力尝试将Pig和Hive置于顶层,但是它仍然还做不到最好。我认为如果它能达到理想中的目标那会非常好,但目前它是否足够灵活地支持不断的查询操作呢?至少现在它还做不到。”

Bohn认为,用于预测建模的数据不应该存储在Hadoop中。这会使分析师很难从HDFS获取数据,它需要有一个查询引擎。而且,任何影响分析师获取数据的东西都会延长分析和发现业务价值的时间。

这就是Etsy公司使用Vertica数据库保存所有建模数据,并用一个Hadoop集群存储非实时数据的原因。Bohn说:“仅仅囤积数据是没有任何价值的。只有当数据分析师能自己获取数据,他们才能更好地利用他们的时间。”

当数据库工程师遇见Hadoop

日本Web门户与电子商务网站DeNa的数据分析师向TechTarget记者透露,他们之前在一些基本的商业智能和分析应用中遇到了类似的问题。该公司的分析基础架构部总经理Kenshin Yamada指出,所有公司的点击流数据都存储在一个Hadoop集群中。但是,这使得分析师很难产生流量报表,也很难分析各种内容的流行度。在从Hadoop创建每一个新报表时,数据库工程师都不得不编写查询给分析师提供他们所需要的数据。

2013年,DeNA在它的Hadoop系统上补充了一个Vertica数据库。Yamada指出,这样做提高了数据访问便利性,缩短了分析师获取所需信息的时间。相对于使用Hadoop作为分析数据源,新方法能够更好地支持迭代的数据科学工作,因为这提高了Vertica系统的查询执行速度,从而允许分析师在相对较短的时间内试验各种不同的设想。

Yamada指出,数据分析师“不应该搜遍Hadoop只为了创建一个KPI仪表板。”

Hadoop仍然缺少对R语言的支持

Anmol Walia是客户服务合同商24/7 Customer的高级应用研究员,他在使用Vertica时遇到了类似的情况。就如同这家公司的名字一样,他们需要提供7×24小时的服务网。它会提取点击流数据和客户提供的消费客户记录,然后使用这些信息去预测哪些客户在浏览电子商务网站时需要帮助,从而能够主动地发起干预。首先所有数据先进入Hadoop,但是预测客户需求的模型建立在Vertica上,而后者专门为这个工作从Hadoop获取数据。

Walia指出,采用这种方法的一个原因是Vertica支持R编程语言,这是大多数公司数据分析师所使用的语言。相反,R与Hadoop之间并没有简单的集成方法。

他指出,这两个开源工具也可能集成在一起,但是它们是运行在完全不同的基础架构上。Hadoop核心是一个分布式文件系统,而R是单线程语言,专门用于处理单CPU的作业。而将它们集成在一起的方法通常需要许多的手动编程工作。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

作者

Ed Burns
Ed Burns

TechTarget网站编辑,重点关注商务智能、数据分析和数据可视化技术。

翻译

曾少宁
曾少宁

TechTarget中国特约技术编辑,某高校计算机科学专业教师和网络实验室负责人,曾任职某网络国际厂商,关注数据中心、开发运维、数据库及软件开发技术。有多本关于思科数据中心和虚拟化技术的译著,如《思科绿色数据中心建设与管理》和《基于IP的能源管理》等。

相关推荐