为何部署大型数据仓库:数据源

日期: 2012-05-31 作者:Mark Scott翻译:曾少宁 来源:TechTarget中国 英文

许多用来创建OLAP数据库的产品都会有多个数据源。一个系统拥有多个数据源或通过多个小型数据仓库获取所需要的数据是很常见的情况。然而,如果数据仅位于一个数据源,那么系统状况必然是最佳的,因为不同系统的数据很少同步,额外的ETL就会影响处理过程。从多个系统获取数据通常比从单个数据源获取数据的速度慢。

  注:这种情况似乎与我们想象的不同,因为看似使用多个数据源能够实现多台服务器的并行处理,从而提高性能;实际上,这种情况很少出现。   分析的性质决定了人们一定会查询汇总信息,并将它整合到基本数据中。他们希望通过使用关注的汇总数据隔离出特殊的事务子集,然后显示该部分数据(或打印数据、或将数据提取到Ex……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

许多用来创建OLAP数据库的产品都会有多个数据源。一个系统拥有多个数据源或通过多个小型数据仓库获取所需要的数据是很常见的情况。然而,如果数据仅位于一个数据源,那么系统状况必然是最佳的,因为不同系统的数据很少同步,额外的ETL就会影响处理过程。从多个系统获取数据通常比从单个数据源获取数据的速度慢。

  注:这种情况似乎与我们想象的不同,因为看似使用多个数据源能够实现多台服务器的并行处理,从而提高性能;实际上,这种情况很少出现。

  分析的性质决定了人们一定会查询汇总信息,并将它整合到基本数据中。他们希望通过使用关注的汇总数据隔离出特殊的事务子集,然后显示该部分数据(或打印数据、或将数据提取到Excel)。毫无疑问,在汇总数据和详细数据存储在同一系统中时,隔离是比较简单的方法。

  由于用一个数据源同时存储汇总数据与详细交易数据可以简化数据维护与操作,所以需要建立能够存储和处理大量数据、随着数据增长而扩展的大型数据仓库,为IT提供强有力的分析资源。

  我经常需要对一个企业的数据进行全面整理,才能够发现我需要的数据。当业务需求出现时,业务用户会考虑解决方法,而不是数据所在位置的约束。如果基于单一数据源,那么会更容易定义和生成报表。

  将所有数据都保存在同一个位置,显然可以简化数据的查询和使用。不仅如此,这也有利于整理数据脉络。不同的源系统慢慢会出现不同的数据捕捉方法。单个事务会在某一特定时间点发生,如产品离开生产线或者货船离开码头。但是,对于许多重要业务事件而言,这个过程需要进行一段时间的跟踪。整个销售周期可能会持续几周、几月甚至几年时间。在这个周期中,不同的系统负责捕捉不同步骤的数据——CRM、订单输入、配送、制造、支付处理等。最困难的一点是跟踪这些系统从开始到结束的状态,将这个周期中发生的所有活动进行关联。

  我对数据脉络也开始产生了疑问。数据脉络是一个很大范围的问题,它关系到如何测量一个业务事件发生的动因,如广告、销售活动、制造、配送、清单等。如果数据脉络可通过数据库结构建立和确定,那么企业数据源之间的深度关系也就能理清了。

  真正建立起这些数据源之间的关系并非易事。在交易结束之后,会计系统会在一个月之内准备好数据;制造系统会在每天晚上准备好数据;HR系统则每两个星期提供一些数据。整合这些系统的数据,使它们输入统一的结果,是一件富有挑战性的任务。

  注:虽然确定数据仓库的数据脉络有一定的困难,但是困难主要都集中在设计阶段。一旦建立起数据脉络,对于报表系统的维护和优化会有很大的好处。

  各种源系统的数据差异给信息架构团队带来了巨大的挑战。尽管如此,对数据差异的处理、将其融入到内聚整体中恰恰是产生强烈业务洞察力的基础。

  如果将数据整合到一个位置,那么这个建立数据源的设计过程就会非常简单。将新数据源整合到一个企业数据仓库中,就一定能够解决数据脉络问题,也就解决了数据添加问题。虽然添加数据一开始很困难,但一旦完成,这些数据可供整个业务范围使用。

  然后,数据仓库系统必须持续扩展新的数据源,这需要一定的处理资源来将数据转换和整合到统一的企业数据模式中。此外,还需要一定的空间来管理元数据(数据源、提取日期、转换等),即大量数据源中必不可少的附属数据。理想情况下,系统规模可以先设定为符合短期需求,再随着业务的需求而增长。

翻译

曾少宁
曾少宁

TechTarget中国特约技术编辑,某高校计算机科学专业教师和网络实验室负责人,曾任职某网络国际厂商,关注数据中心、开发运维、数据库及软件开发技术。有多本关于思科数据中心和虚拟化技术的译著,如《思科绿色数据中心建设与管理》和《基于IP的能源管理》等。

相关推荐

  • 选择合适的ETL工具 关键看什么?

    传统ETL工具仍然在数据集成市场占最大比例,Gartner公司在2016年数据集成工具魔法象限调研报告中发现,使用批处理任务处理大量数据集成的组织超过80%。

  • 大数据时代到来 我们还需不需要ETL?

    将数据转化为有用信息,成为了许多企业迈不过去的一道坎,也是许多大数据项目仓促上马但最终失败的主要原因。

  • 您的数据有多干净?

    在事务处理系统中,数据很少能保持完全干干净净。这是因为事务处理系统通常一次只处理单条记录或者一小批记录。

  • 辉瑞制药摒弃ETL 走进数据虚拟化

    一直以来,辉瑞制药有限公司的全球药物科学部门都负责决定什么样的新药能够进入市场,然而曾经有一段时间,该部门却走到了技术的十字路口,难以决策。