针对大数据的数据治理流程:不可能的任务?

日期: 2012-08-20 作者:Roger du Mars翻译:曾少宁 来源:TechTarget中国 英文

大数据”吸引人的是承诺能够提升公司的竞争优势,公司可以利用它发现客户、网站使用率及其他与业务息息相关的元素。但是,一定要小心:缺乏正确的数据治理流程,大数据项目先行者的热情可能会引发一系列问题,其中包括数据错误和成本增加。

  但是,数据治理保证大数据正常运行的作用才刚刚显现。大数据通常包含大量的非结构化信息,许多组织IT部门开始注意到大数据。因此,根据分析师的介绍,大数据环境的治理正处于起步阶段,而且能够高效治理大数据环境的方法并不多。

  Forrester分析师Boris Evelson说:“大数据是一个新领域,还没有人开发出治理流程和策略。现在这个领域的许多问题还没有得到解决。”

  Evelson补充说,还有一个基础问题:大量的大数据更多是起源于数据分析和发现,而不是常规的商业智能报表和分析。 他说,这样就形成了一个恶性循环:“在建模之前,数据无法进行治理,但是如果未经过数据分析,数据又无法建模。”

  数据治理项目提供了一种设置数据使用策略和实现控制的框架,其目的是保证信息的准确性、一致性和可访问性。显然,在大数据的管理过程中,最大的挑战就是在数据采集和存储过程中对数据进行分类、建模和映射,这主要是因为大多数信息都具有非结构化特性。

  数据管理咨询公司AskGet的总裁Malcolm Chisholm说:“为了从大数据中获得有意义的业务信息,我们需要完成所有的相关工作,如数据的语义分析,然后再将它转变为概念模型或知识。而且,整个过程需要大量治理人员的参与。”

  在大数据中寻找线索

  这里的难点是大数据的数据治理流程是全新事物。Chisholm说:“大数据还不成熟,而且大多数管理员对此还一无所知。”

  大数据也包括大量的结构化事务数据,它拥有非常特殊的性质。它通常按照3个V进行定义:容量(volume)、种类(variety)和更新速度(velocity)。Forrester又给它的定义增加了变化性(variability ),而它的竞争对手Gartner公司还为它添加了复杂性(complexity)。

  此外,数据通常来自外部来源,因此准确性不一定能够得到保证;此外,文本数据的含义和上下文并不一定能够自证。而且,在许多情况下,它存储在Hadoop文件系统或NoSQL数据库中,而非传统的数据仓库。对于许多组织而言,大数据要求所有相关人员都经过一个较长时间的学习曲线,其中包括:IT经理、程序员、数据架构师、数据建模人员和数据管理人员。

  做得越多越危险

  美国Athena IT解决方案公司的创始人Rick Sherman指出,处理和管理大数据的最大问题之一是忽视业务优先级。

  例如,公司所采集的许多非结构化数据都来自社交媒体,而且在这些信息中,通常只有小部分拥有重要价值。他说:“试图管理或控制非结构数据的所有方面可能是一个错误的做法。”他警告说,这些公司最终可能会将时间和资源浪费在不重要的数据上。

  咨询公司Granite Falls 总裁Danette McGilvray也指出,如果方法不当,那么大数据将耗费数据管理和处理团队的大量时间。McGilvray说:“我们确定数据是否有价值的唯一方法是我们是否理解业务需求。对于大数据而言,我们仍然需要注意这一点。”

  数据治理协会(The Data Governance Institute LLC)是佛罗里达州奥兰多的一家咨询与培训公司,它的创始人兼总裁Gwen Thomas建议,判断所采集数据的质量应该是数据管理经理在处理大数据时的第一优先级工作。她说,主动检查数据质量可以节省许多时间和减少麻烦。

  正确关联可以避免数据脱节

  Thomas补充说,人们经常低估将新数据关联到公司用于分类信息的参考数据的重要性。她说,将大数据与现有参考数据相关联是“一个重要步骤。事实上,如果这一步没有做好,那么大数据处理得到的信息可能是错误、不正确或不完整的。”

  Thomas建议,为了保证数据的正确关联,必须将这个任务分配给一位高级数据架构师,而不要交给经验不足的数据建模人员或非IT人员。

  Chisholm指出,数据治理管理者也应该恰当安排高效的沟通方式,帮助程序员和业务用户(通常是大数据项目的发起人)进行关于有效数据模型的交流。但是,这种讨论应该始于对Hadoop和NoSQL技术及其与关系型数据库的区别的充分认识——同时理解采用统一方法管理和处理大数据的必要性。

  Chisholm指出,公司应该避免让程序员和用户各自孤立行动,包括大数据系统的创建、必要的数据建模和关联工作。这可能会给他们带来大量的问题;影响系统实施效果,从而无法获得预期的商业回报;以及将资源浪费在不必要的系统上。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

翻译

曾少宁
曾少宁

TechTarget中国特约技术编辑,某高校计算机科学专业教师和网络实验室负责人,曾任职某网络国际厂商,关注数据中心、开发运维、数据库及软件开发技术。有多本关于思科数据中心和虚拟化技术的译著,如《思科绿色数据中心建设与管理》和《基于IP的能源管理》等。

相关推荐