大数据概念逐渐走出“3个v”的束缚

日期: 2012-11-26 作者:Nicole Laskowski翻译:曾少宁 来源:TechTarget中国 英文

在近期举行的“大数据分析2012”大会上,来自著名社交网站LinkedIn公司的业务分析主管Simon Zhang进行了主题分享。根据他的观点,传统分析框架已经被打破。

  Simon Zhang的观点有两个依据:第一,框架构成并不合理,并且排除了一些重要元素;第二,其结构(通常描述为金字塔型)会将分析过程拆分为片段,这可能会破坏业务。

  他说:“LinkedIn提出了一个新框架。它不是金字塔型,而是钻石型。”

  这种设计强调更大规模但更简单的数据访问,以及更大的团队统一性。Simon Zhang及其同事认为这两个方面都非常重要,因为他们的目标是在数据中发现一些有用模式。但是,和许多销售数据产品的公司一样,LinkedIn已经超出了平均业务水平,它仍然还不知道如何利用好广泛讨论的“大数据”和“数据科学”。

大数据概念逐渐走出“3个v”的束缚

  事实上,大数据在几年前已经出现,然后快速向前发展,直到2011年才到达发展巅峰。去年,Gartner还第一次在它的年度“新兴技术Hype Cycle”报告中加入了大数据。分析人员开始研究大数据领域,将他们的注意力重点放在开源技术Hadoop上。

  一年之后,大数据概念仍然很不清晰,想要确定一个定义都相当困难。虽然大数据概念主要来自厂商和分析师,但是理解大数据的来源也的确有助于促使商业公司打破传统。

  大数据追根溯源

  其实“大数据”这一词汇已经出现很多年了。Quora上有一个问答包含了1987年以来的一些用例。大约在10年之后,1996年SGI公司的首席科学家John Mashey做了一次题为“大数据与下一代基础架构压力(Infrastress)”的演讲。

  1999年在接受媒体的采访中,他说:“Infrastress是指计算基础构架的压力。它是指速度快的技术会对速度较慢的技术带来压力。”

  在这个演讲中,Mashey解释说,CPU、内存和存储技术的发展比其他计算资源,如带宽和文件系统的发展要快。这种差异会造成瓶颈和不稳定性,迫使企业寻找解决方法。

  当时,Mashey所指的大数据是数据容量的快速增长,其中特指互联网等相对较新的数据源,并且介绍了它对存储系统的影响。几年之后,META集团(已被Gartner收购)的分析师Doug Laney对此进行了补充。

  Laney说:“它不仅仅与容量增长有关。信息管理在各个方面都面临挑战。”

  在2001年2月的评论中,Laney将数据领域的复杂性描述为三个维度。他观察发现,数据容量(volume)在增长,速度(velocity)和种类(variety)也在增长——即大数据的3个V。

  种类是指用于描述多个来源结构化数据的方式。他说,这里的问题与每一个来源的数据量无关,而是与数据的整合方式有关。

  随后,大数据的种类也在发展,以反映多种数据结构,而且是以爆炸性速度发展。除了许多公司熟悉的一般结构化数据,还出现了文本、图像、视频、语音文件和Web日志等数据。

  虽然原始描述发生了变化,但是Laney的原始观察结果并没有变:数据整合仍然很困难。

  打破“3个V”的概念

  与Mashey类似,Laney发现,互联网(特别是电子商务的高速发展)成为数据环境变化的主要因素。

  2001年,Laney写道:“电子渠道成本的降低使企业能够向更多客户或交易伙伴提供商品或服务,而且单个交易所需要的收集的数据量最多增加了10倍——因此需要管理的总数据量也增加了。”

  根据宾州大学Wharton客户分析项目主任Peter Fader的观点,电子商务为商家创造了新的机会。

  他说:“我们突然能够查看和跟踪之前无法知晓的各种行为。而且,我们拥了建立保存这些信息的数据库技术。”

  Fader指出,互联网从根本上改变了客户关系管理(CRM)系统。根据Fader的观点,CRM发展与大数据存在关系。许多公司将额外的信息看作为获取深度客户知识的关键。而且,按照摩尔定律,计算能力和存储会变得越来越廉价和简单,因此公司能够保存数据,而不需要丢弃数据。

  他说:“我们都是自然囤积者。而且,当您发现一些有价值的资产时——无论是符号、不动产还是数据,我们都希望抓在手里。”

  互联网并不是唯一有用的新数据源,2001年,传感器(也属于摩尔定律范畴)也加入其中。Laney说,它们都对数据产生速度有着重要的影响。

  他说:“无论是销售系统、RFID扫描仪或移动设备,这些设备产生数据的频度都在增长。我们认识到,当前的系统容量已经无法在特定时间里加载和处理这些数据了。”

  最终,许多公司还仍然要面对Mashey在1996年所描述的基础架构压力:有一些技术发展速度比其他技术快。而且,如果希望利用所收集的数据和新数据源,许多公司还需要使用一些新技术。

  事实上,最近分析师开始认为大数据的3V定义并不正确。例如,Gartner最近提出了一个相反的大数据定义——这个定义扩展了之前建立的类型、速度和容量特性。

  具体地,Gartner认为,大数据将需要“新型信息处理方式,用来改进分析发现、决策制定以及流程自动化”。

  Laney在最近一次演讲中指出:“仅仅考虑数据增长并不能完全说明问题,大数据能够帮助公司执行或转换的作用甚至比它本身的概念更加重要。”

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

作者

Nicole Laskowski
Nicole Laskowski

Nicole Laskowski is a senior news writer for SearchCIO.com and SearchCIO-Midmarket.com. She covers CIO strategies for analytics, business intelligence and data management. Prior to joining TechTarget, she worked as the news editor for a community newspaper in Arlington, Mass., overseeing the news content of both the weekly print publication and the newspaper’s website. Nicole also has worked for two other community newspapers in Oregon and Michigan and brings 10 years of writing and editing expe

翻译

曾少宁
曾少宁

TechTarget中国特约技术编辑,某高校计算机科学专业教师和网络实验室负责人,曾任职某网络国际厂商,关注数据中心、开发运维、数据库及软件开发技术。有多本关于思科数据中心和虚拟化技术的译著,如《思科绿色数据中心建设与管理》和《基于IP的能源管理》等。

相关推荐