数据质量如何成为数据管理的拦路虎

日期: 2014-01-09 作者:Ethan Jewett翻译:陈洪钰 来源:TechTarget中国 英文

IT圈里炒出来的名次太多了,恐怕最火的要数数据管理了。大数据对大家来说已经耳熟能详了,比如人们总在说的“熟悉大数据实时分析、内存预测分析的科学家将改变你的企业”等等。其实现实很骨感。从数据中挖掘价值是一件耗时耗力又琐碎的事。

并不是说炒作就毫无意义可言,其实有时很难分清技术词汇和炒作之间的区别。也许前者重在专业技术,后者难免有主观臆想之嫌。我不敢以数据分析专家自称,但数据管理背后的实际概念和技术,我还是懂的,了解每一项技术真正需要考量的因素。如果我们不能真正理解技术,大数据项目就很难成功。

例如,我们经常提到的预测分析实际上是能够找到数据间潜在关系和趋势的运算法则。预测运算法则并不是真的预测。最多,它只能告诉你如果条件不变的话,会发生什么。而最糟糕的情况是误报,即1型错误,本来没有关系,却被系统判断为有关系。

错误的关系的判断往往是由数据的随机分布或分析模型的错误导致的。模型预测的不是现实世界的现象。有些容易运行的预测工具会增加误报,因为这种分析运行的越多,导致的随机的错误也就越多。缺乏经验的操作者都有这样一个毛病,希望每次都能从数据分析中得出“结论”,认为没有“结论”的数据分析是失败的。其实有时后者才是正确的。不过如果运行的分析足够多,找到相关关系是必然的。真正智能的分析软件应该做的这一点。

更糟糕的是,错误是随机发生的。数据要经过收集和集成。每一步都有可能产生错误。这些错误往往会引起误报。比如,你可能正在做盈利数据的分析,但是由于系统bug,你无法获得某一地区某些产品的销售值,这时你的预测分析软件就会显示该地营业额下降,而且还会继续下降下去。实际的情况是,你的软件中少了几项销售数据。这时软件应该提醒你核对数据,或者建议检查该地区存在bug的系统,因为该地区某些产品的销售值出现了异常情况。可我们一般会得到这样的结果:软件建议削减开支,弥补亏损。软件供应商目前还没有添加这种分析功能,因为它很难设计进来。处于销售的考虑,供应商也没有指出这类问题。

要想得出正确的分析结论,数据需要满足一下条件:

可信度:要真实的显示数据。比如在图表中显示错误栏,无论是数据还是根据数据产生的可视化效果,都要实事求是。上面提到的预测分析软件如果经过可信度监测,就会发现其中的问题。

完整性:确保数据能够直接反映现实情况。这意味着不要在测量、收集和准备数据的过程中出现差错。上面提到的预测失败的例子就是数据不完整导致的。

透明度:确保数据可信完整的保障。理想情况下,数据分析的任何步骤,测量、收集和可视化都是可见的。这样技术人员才能够判断数据质量。例如上面的例子,软件在显示营业额下降的同时,应该也显示数据源。这样技术人员就能够看到是数据不完整导致的这样的预测结果。数据透明要求系统保持数据的行信息,并能直接给予呈现。

数据管理最难的问题不在于数据量、处理速度,也不在于自动化。真正的困难在于如何获得高质量的数据。这就需要数据可信度、完整性和透明度都能符合标准。基于此,数据分析才能得出正确可靠的结论。

现在流行的无论是大数据、实时分析、内存技术还是预测分析,它们自己都不能提供业务价值,只有满足可信、完整、透明的条件才能做出贡献。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

相关推荐