Amazon引入Athena 是否意味着AWS云上Hadoop的终结?

日期: 2017-01-02 作者:Jack Vaughan翻译:张亮亮 来源:TechTarget中国 英文

Amazon Web Services准备尝试扩展云计算龙头地位,继续充实其数据基础设施,这次使用的是新的查询服务。

Athena是对Amazon Simple Storage Service或S3中的数据执行SQL查询的数据引擎,它是不断增长的云数据阵容的最新成员。连同一些竞争性的软件包一起,该软件预示着云上数据更多的交互式查询。

Athena的定价很简单:在查询中扫描每TB的数据收取5美元。这种按查询支付的定价可能成为云上的规范。例如,谷歌表示,其BigQuery分析数据仓库服务的价格为每TB 5美元。

Athena处理S3中的数据,包括CSV,JSON ORC和Parquet的格式。与BigQuery一样,根据Amazon Web Services(AWS)的说法,它是“无服务器的”,它仅在运行时作为服务而存在,它不需要长期运行的基础设施或持续的管理。

因为它几乎不会留下痕迹,所以Athena的工作可以被描述为旋转式或瞬态工作。 它只在需要时才会出现。

451 Research的研究主管Matt Aslett说:“有了Athena,用户只需要为查询付费,而不是为底层基础架构或数据集成服务付费。”

与查询那些存储在Hadoop云服务或Amazon Elastic Compute Cloud中的数据相比,Aslett引用了查询云存储中数据的潜在优势。 这些优点包括在S3中存储数据的较低成本和易于扩展的特性。

适合快速随机分析

Amazon的领导人将Athena描述为对Redshift(公司在云中的数据仓库)和Elastic MapReduce(EMR)的补充,Elastic MapReduce是用于Hadoop和Spark风格数据处理的集群服务。两者都旨在处理大型分析工作负载,AWS首席执行官Andy Jassy如是说。

两年前,在AWS re:Invent大会上,Amazon将与MySQL兼容的Aurora关系数据库添加到其产品组合中,直接面向IBM的DB2,Microsoft的SQL Server和Oracle的12c数据库。除了Athena,该公司还发布了一个与PostgreSQL兼容的Aurora预览版本,而PostgreSQL是另一个开源数据库。

但数据管理和分析焦点主要集中在Athena上。“Redshift和EMR已经为大型和小型公司提供了PB级的分析功能,但是有些客户必须对那些他们想要进行快速查询的数据做随机分析工作(较小的工作),”Jassy说。因此,战术或数据发现工作可能是Athena的最佳目标。

内置Presto

Athena的底层是Presto,它是一个开源的分布式SQL查询引擎,最初来自于Facebook的工程操作。该软件还可在Netflix,Airbnb上看到,这在帮助亚马逊和其他组织伪造Athena上起了一定的作用。Presto是由Apache软件基金会许可证覆盖的。

虽然Athena和Presto已经支持对那些可能从未进入Hadoop领域的数据进行内存查询,但它们可能已经属于SQL-on-Hadoop工具的常见项。

Presto去年有一个企业软件管家,当时Teradata承诺了对Presto的支持,它有一个不断增加的支持者名单。Aslett指出Qubole和Treasure Data是Presto方法的其他支持者。

“Amazon选择Presto作为Athena数据引擎的基础是Presto对多个数据源的标准SQL分析的适用性,”Aslett说。 他补充说,这些工具很重要,因为SQL技能是在企业内部广泛使用的。

同时处理SQL-on-Hadoop查询是、来自于MapR Technologies的Drill。它在发布了一个新版本,改进了互动查询延迟。 Drill是Dremel的开源版本,Dremel是Google在2010年的一份研究论文中创建和概述的查询技术,也是Google本身提供的BigQuery云服务的基础。 在Microsoft Azure阵营中,公司去年在收购初创公司Metanautix时提供了分布式SQL查询功能,受Dremel的启发,它提供了类似的软件。

对S3上SQL的支持一直在上升。 Presto经常与Impala联系在一起,Impala是Hadoop供应商Cloudera创建的另一种开源查询技术,它最近发布了可直接针对Amazon S3中的数据运行的分布式Impala软件。

另一个Hadoop玩家Hortonworks,强调改进Hive以获得更快的SQL查询,它发布了Hortonworks Data Cloud for AWS,改进了与Amazon S3的集成,更好地支持Hortonworks所谓的“临时工作负载”——一次性作业,而其中一些数据不需要持久性。

无需ETL

根据Aslett和其他人的说法,在像Presto这样的高度分布式SQL工具这类一般行业活动的背后,是一种分析数据的驱动力,它无需首先提取并加载到数据库或数据仓库。

位于费城的Stitch Inc.的首席执行官兼联合创始人Jake Stein表示,亚马逊提供的Athena是一个“无ETL”的解决方案,它是今年早些时候作为RJMetrics的子公司而成立的一家提取,转换和负载(ETL)服务提供商,而当时该公司是被电子商务供应商Magento收购了。

Stein表示,“无ETL”意味着ETL过程由提取,加载和转换(ELT)取代,其中数据转换在SQL中根据下游使用而不是前期在需要时在装载阶段发生。他承认,ETL公司像他这样推广ELT的概念可能是令人惊讶的,但他解释了后者的好处。

“对于Athena,你从源中提取数据,然后在没有或有最小的预处理情况下对其进行加载。这种风格的ELT是大多数用例的一个优越的模型,因为它带来更简单的架构,并让分析师更多地了解原始数据是如何变换成为已经转换过的数据。”

另一个迹象表明,Amazon计划填补其数据相关产品的任何空白,该公司还在re:Invent中介绍了托管ETL服务。有一款被称为AWS Glue的服务,该服务会抓取用户的数据源,创建目录并处理数据转换和调度。 目前,感兴趣的用户可以请求参与受控测试。

瞬态运动

除了ETL之外,Athena数据引擎等产品可能会对现状带来更多的颠覆。

使用云存储而不是Hadoop数据存储的能力可能导致一些人将Athena视为对云中Hadoop的威胁,这一举措最近引起了关注,因为Hadoop软件供应商(源自本地计算) 转而支持S3,瞬态工作负载和即付即用定价。

但Aslett并不同意,他说Hadoop和关系数据仓库仍然可以提供吞吐量和延迟优于分析云存储中的数据的方法。

“Athena的推出并不意味着AWS云上Hadoop的终结,”他说,“对于具有复杂查询要求的长期和大型项目,Redshift或EMR可能是明智的选择。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

作者

Jack Vaughan
Jack Vaughan

TechTarget新闻记者和网站编辑,主要关注数据管理领域的技术趋势和动态。

翻译

张亮亮
张亮亮

TechTarget特邀编辑。毕业于北京邮电大学网络技术研究院。熟悉软件开发测试的各个环节和流程,对操作系统,数据库,计算机网络等有较为深入的理解。现就职于中国电子科技集团公司下属研究所,从事软件研发工作。热衷于英文的学习交流,平时喜欢户外运动,音乐,电影。

相关推荐