选择合适的ETL工具 关键看什么?

日期:2017-1-10作者:Craig Stedman

ETL   数据集成   

【TechTarget中国原创】

选择合适的ETL工具进行数据集成可能是一个挑战。那么如何寻找合适的ETL软件呢?

抽取、转换和加载(ETL)是IT团队和分析人员最常用的数据整合流程。ETL过程中,先从源系统抽取数据,然后为下游处理和分析用途做数据转换,最后把转换后的数据加载到目标系统中(可能是企业数据仓库或者是大数据应用Hadoop集群等)。

ETL工具可以自动化完成这项动作,相比用SQL或其它编程语言手工编写整合数据的脚本,ETL处理流程相当于流水线作业。然而,手工编码在数据集成开发者、数据分析师和其它用户群中仍然普遍存在。如果组织期望摆脱手工编码的状态,最好的办法是选择一款能满足数据集成需求的最佳ETL工具,这类ETL软件已经发展得相当成熟了。

Rick Sherman是Athena IT解决方案执行公司创始人(该公司位于美国马萨诸塞州Maynard),他曾在2012年SearchDataManagement组织的Q&A交流时提到,自二十世纪九十年代ETL软件和数据集成产品出现以来,到现在这些软件已经发生了很大的变化,尤其是ETL软件。最初的ETL工具定位是“从A系统到B系统”批量转移数据,并不提供更丰富的功能。但是那种状态持续时间不长。Sherman是最早接触的使用者,他指出,现在这些产品都增加了预定义集成流程、ETL过程和代码管理功能,并内置了集成过程文档。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

评论
查看更多评论

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

作者>更多

Craig Stedman
Craig Stedman

TechTarget执行编辑,主要负责商务智能和数据库网站的内容编辑,在IT技术领域具有丰富的采编经验

ETL>更多

相关推荐

技术手册>更多

  • SQL Server 2012商务智能手册

    在本技术手册中,TechTarget数据库与SearchBI网站编辑将为您解读SQL Server 2012的理念,分析其可视化与集成服务功能,并提供一些在大数据领域的应用见解。

  • 电子书:你需要知道的Hadoop 2

    在本次的TechTarget商业智能电子书当中,我们关注了Hadoop 2的新特性、对YARN的技术解析、Hadoop应用实践、常见问题及市场需求。

  • 体育行业BI案例集锦

    本次技术手册,我们为您精心总结了多个体育行业的BI应用案例,让您更加直观地感受BI技术与竞技体育结合所碰撞出的火花。

  • 安装SQL Server 2005报告服务

    使用一门新技术有时候是属于被迫的。没有正确地安装这个技术只会导致更多的困难。这篇指南列出了正确安装SQL Server 2005报告服务的步骤,以及让你走上正确方向的当前服务包。无故障顺利安装SQLServer2005报告服务包括六个步骤:1、判断先决条件;2、系统配置和注册;3、选择组件、特性和实例类型;4、安装完成之前的最后一点;5、开始服务包装以及查看安装和日志文件。这篇文章中的详细步骤和屏幕截图是直接从SQL Server2005标准版本的媒体中安装报告服务时得来的。

TechTarget

最新资源
  • 安全
  • CIO
  • SOA
  • 数据库
  • 网络
  • 云计算
【TechTarget中国原创】

选择合适的ETL工具进行数据集成可能是一个挑战。那么如何寻找合适的ETL软件呢?

抽取、转换和加载(ETL)是IT团队和分析人员最常用的数据整合流程。ETL过程中,先从源系统抽取数据,然后为下游处理和分析用途做数据转换,最后把转换后的数据加载到目标系统中(可能是企业数据仓库或者是大数据应用Hadoop集群等)。

ETL工具可以自动化完成这项动作,相比用SQL或其它编程语言手工编写整合数据的脚本,ETL处理流程相当于流水线作业。然而,手工编码在数据集成开发者、数据分析师和其它用户群中仍然普遍存在。如果组织期望摆脱手工编码的状态,最好的办法是选择一款能满足数据集成需求的最佳ETL工具,这类ETL软件已经发展得相当成熟了。

Rick Sherman是Athena IT解决方案执行公司创始人(该公司位于美国马萨诸塞州Maynard),他曾在2012年TechTarget组织的一次互动问答时提到,自二十世纪九十年代ETL软件和数据集成产品出现以来,到现在这些软件已经发生了很大的变化,尤其是ETL软件。最初的ETL工具定位是从A系统到B系统批量转移数据,并不提供更丰富的功能。但是那种状态持续时间不长。Sherman是最早的使用者,他指出,现在这些产品都增加了预定义集成流程、ETL过程和代码管理功能,并内置了集成过程文档。

普遍追求的ETL功能特性

为了说明ETL的变革发展,Sherman和其它数据管理咨询顾问都介绍了现在大部分ETL厂商都提供的一些核心功能,这也是大部分用户所期望的。主要功能内容如下: 

现代ETL工具的其它常见功能还有:支持集成的数据存储在内部构建系统和云环境,支持混合两种类型平台的混合云环境。

大部分供应商现在还提供把ETL后两个流程调换顺序的功能,即抽取、加载和转换(ELT)。ELT让用户可以在把数据加载到目标系统之后再做操作和转换。这种功能特别适合大数据应用。原始数据量特别大,要先导入Hadoop分布式文件系统、NoSQL数据库或者其它存储机制中,然后根据不同的分析用途需求做过滤处理。

ETL工具发展成为集成套件

传统ETL工具仍然在数据集成市场占最大比例,咨询和市场研究公司Gartner公司在2016年数据集成工具魔法象限调研报告中发现,使用批处理任务处理大量数据集成的组织超过80%。尽管在许多情况下,开始使用ETL工具的厂商宣称他们还有其它类型的技术,整体形成功能更完善的数据整合套件。

除了批量ETL流程,这些产品套件通常会提供数据复制、变化数据捕获和其它形式的实时集成;数据虚拟化软件可以提供数据集成视图,不需要从源系统抽取数据加载到中心数据仓库或者其它目标系统就能看到集成后的效果;还有流处理和事件处理工具;以及通过面向服务的架构和企业服务总线技术实现应用集成功能的产品。

在择ETL工具处理数据集成任务的时候,有几十家供应商可供考虑。大部分厂商都有完整的集成套件,例如:Informatica、IBM、SAP、Oracle、SAS、微软和Information Builders公司。另外,还有一些低成本的开源ETL集成平台可供选择,比如:Talend、Pentaho和TIBCO软件公司的Jaspersoft。

此外,市场上还有很多小供应商,包括ETL专家和公司,他们都在关注专门垂直行业或者特定类型的应用集成。另一种方案是数据仓库自动化软件,这种软件可以生成集成代码作为数据仓库开发流程的一部分,无需独立的ETL工具或者服务器,不过一些ETL支持者认为这种产品在功能方面比不上主流的数据集成工具。