微软披露最新云数据仓库技术细节:采用MPP架构、支持PB级数据

日期: 2015-07-12 作者:Jessica Sirkin翻译:孙瑞 来源:TechTarget中国 英文

在微软的云中,我们也将看到MPP数据仓库的身影。

据了解,微软将在Azure云平台上发布一款大规模并行处理(MPP)数据仓库,并命名为Azure SQL DataWarehouse。MPP可以通过将数据分布到各个计算节点中,来解决海量数据处理难题。在此之前,MPP数据仓库往往只能部署在企业内部数据中心,而微软发布Azure SQL Data Warehouse则意味着将MPP能力推向云端。

目前,Azure SQL Data Warehouse仍处于测试阶段。参与了beta项目的数据库咨询顾问Denny Cherry向TechTarget记者表示,云端的大规模并行处理是一项新的技术,这也将是微软云数据仓库最大的亮点。而全程参与该项目并第一时间试用了有限预览版的Denny Cherry认为,SQL Azure技术正在经历“成长的烦恼”。

 “微软希望能够为用户提供真正可用的产品,他们每周都会发布新的更新包来努力将MPP技术推向云端。但目前为止,beta测试的产品还是有不少问题,比如需要重启数据仓库才能进入新的版本。”DennyCherry说。

AzureSQL Data Warehouse是一个PB级的数据仓库服务,它支持分布式架构并采用了全托管的模式,可以根据客户的需求自由地扩展伸缩。它可以与发布的SQL Server 2016紧密集成。由于Azure SQL Data Warehouse在AnalyticsPlatform System基础上采用了并行处理架构,因此它可以与其他微软生态系统中的产品与服务兼容。Azure SQL DataWarehouse目前仍在beta测试阶段,微软并没有给出具体的发布日程表。但微软已经在6月底发布了一个Azure SQL Data Warehouse的有限公共预览版本。

目前这个预览版只对一小部分客户开放,而随着越来越多的新客户注册Azure来申请试用Azure SQL Data Warehouse,微软也将发放更多预览账号。作为微软Early Access Program的成员之一,Denny Cherry已经使用了Azure SQL Data Warehouse两个月时间。他还帮助两个零售业客户进行了概念验证(poc)测试。

由于零售企业对大规模数据仓库以及在此基础上的BI和数据分析应用非常熟悉,且需求巨大,Denny Cherry十分看好Azure SQL DataWarehouse在零售业的应用前景。他表示,分析客户的长期购买行为对零售业的成功至关重要,由于BI和大数据分析在零售业的应用从很早以前就已经开始了,所以这个领域的公司都希望能够以更低的成本和更快的速度来分析数据。

对于早期的测试用户,他们也在第一时间接触到了除MPP之外的一些新功能。微软宣称,Azure SQL Data Warehouse是业界首个企业级的云数据仓库服务,它能够进行秒级的扩展,具备极佳的弹性。在Azure SQL DataWarehouse中,数据和计算的扩展是独立的,系统使用Data Warehouse Units (DWU)作为一个基础单元来衡量使用中的节点规模。因此,如需更快的查询速度,你只需要购买更多DWU就可以了。反之,如果计算资源过剩,你还可以减少DWU的数量。Azure SQL DataWarehouse按照DWU的数量收费,对企业来说这是非常大的成本节约。

此外,当你不需要运行查询或使用计算资源的时候,你可以在任意时间里暂停节点并移除所有分配给Azure SQL DataWarehouse 的DWU,但数据存储还可以继续提供服务。由于暂停的时候DWU不再分配给数据仓库,因此就不需要再为它们付费。也正是由于这个扩展性,Danny Cherry认为Azure SQL Data Warehouse最棒的一点就是它适合各种规模的企业。你需要做的,只是在Azure SQL DataWarehouse的门户中调整DWU的数量。

列存储索引同样是活的更快查询速度的关键。数据仓库查询特别适合列存储索引,因为它们往往需要扫描整张表,而列存储索引会把这个过程做到最快。另外,列存储索引相比于传统索引能够提供5倍以上的数据压缩效果和10倍以上的性能提升。

由于Azure SQL Data Warehouse是基于SQL Server关系型数据库引擎的,因此它支持存储过程、用户定义函数、表分区、索引和排序规则。更为关键的是,你还可以使用Transact-SQL(T-SQL)对数据库进行操作,这对许多用户来说是最大的福音。

此外,Azure SQL Data Warehouse包含了PolyBase功能,这是一个SQL on Hadoop技术,它能够查询并导入存储在Azure BLOB和HDFS中的非关系型数据。此外,它使用标准化的SQL Server T-SQL命令,而不是Hadoop语言。由于PolyBase使用外部表来访问非关系型数据,所以表定义会存储在Azure SQL DataWarehouse之中,而真正的数据还是放在Azure BLOB存储和HDFS中。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

作者

Jessica Sirkin
Jessica Sirkin

TechTarget网站副主编,主要负责SearchOracle和SearchSQLServer网站的内容建设。

翻译

孙瑞
孙瑞

相关推荐

  • Azure SQL Data Warehouse未来发展势不可挡

    对于很多小公司来说,数据仓库是一项新鲜事物,但将人力投入到数据仓库上也是一种负担,而云带来了诸多好处。即便是有数据仓库项目的大型公司目前也在重新审视自己的选择。

  • Azure SQL Data Warehouse 新增审计功能

    数据库审计功能的引入,让企业对数据库中发生的事件和变化有了更深层次的了解,这些事件包括更新和查询等。

  • 了解Azure SQL数据库扩展性

    SQL Database支持两种扩展方式,但是横向扩容一般更具有挑战性。在本文中,我们将简单介绍Azure SQL Database实现纵向扩展和横向扩展的方法。

  • 深入解读微软Azure DocumentDB

    与其他服务相比,微软DocumentDB究竟有哪些特别之处,它解决了用户哪些需求。在本文中,我们就将深入介绍一下微软Azure DocumentDB文档数据库存储。