数据可视化在大数据环境中扮演着重要的角色

日期:2016-11-21作者:Ed Burns翻译:乔俊婧来源:TechTarget中国 英文

【TechTarget中国原创】

企业越来越多地使用数据可视化工具(如Tableau)分析复杂的数据。

Tableau软件通常被认为是一个轻量级的软件,功能简单易用。但是越来越多的用户把它应用到更复杂的大数据环境中,使数据可视化工具的效用达到最大化。

数据科学工程团队产品经理Gaurav Kumar说:“数据本身是很没有意义的,想要挖掘数据中的价值,就需要利用数据可视化工具。

他列举了一些公司面临的大数据挑战,其中包括汇集来自一系列硬件和软件平台的数据。相机公司将日志数据发送回服务器保存,所以公司可以跟踪人们如何使用他们的产品,带有摄像头的视频编辑软件公司也面临着相同的情况。除此之外还有更多的传统的数据源,如CRM系统和其他业务应用程序。

Kumar和他的团队已经把所有的数据到放到一个平台,这些数据可以在指导产品开发和营销计划中扮演重要角色。大数据环境中使用Kafka and Spark Streaming将流数据库日志文件放到HBase数据库。然后把CRM和ERP系统中的数据提取、转换和加载,存入Hive数据存储中。数据经过进一步细化,通过Cloudera Impala传送到数据集市,Cloudera Impala可以通过Tableau使用。

Tableau呈现大数据问题

这样看来,数据进入Tableau可能要经过一个漫长而曲折的过程,这个过程通常用于桌面部署中分析小数据文件或在单服务器中设置。但Kumar说,一旦你“理顺”了后端系统,该软件可以有效地访问和报告数据。

Kumar说,“我们有各种各样的数据,目前的挑战是把来自不同地方的数据进行转换,供分析师使用。”

Tableau用于大数据环境的部分原因基于其底层查询工作结构。它将通过编写SQL查询处理数据。如果数据库中的数据可以用SQL查询,那么它也可以在Tableau中使用。

内容数据的高级分析工程师Jason Flittner表示: “当你在Tableau分析数据时,Tableau会编写SQL语句并将其发送到你的数据库。”

Flittner的团队利用Tableau来分析用户如何使用Netflix上的内容。这有助于决定编程类型,以完成生产或收购。数据主要来自用户会话,包括编程人员观察他们是否完成编程,以及是否存在人们倾向于跳过的编程部分。

拥有约7500万的流媒体客户,这无疑是一个巨大的数据量。所有的数据被加载到Amazon Simple Storage Service服务器。团队使用Hadoop来处理数据,结合Hive, Spark and Presto完成数据接口,这些工具都支持SQL查询。这样数据也可以在Tableau以及其他工具,如MicroStrategy和Python编程语言中使用。

数据可视化带来了大数据

Ebates网站帮助在线购物者找优惠券和折扣,分析团队想要拥有一个快速、灵活、可伸缩的和便宜的平台。他们选择构建基于Hadoop的大数据环境,满足可扩展性和成本问题。但快速访问数据就是另外一回事了。为此,他们从AtScale转向使用软件,这样可以使用SQL查询引擎访问Hadoop数据。

现在,该公司使用Hadoop作为集中式数据中心,并为类似于该平台上的Web流量数据进行分类的事情做BI报告。Ebates的分析主管Mark Stange-Tregear表示,将Hadoop的数据处理能力与Tableau的简单报告相结合,将帮助开放更深层次的数据存储。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

评论
查看更多评论

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

作者>更多

Ed Burns
Ed Burns

TechTarget网站编辑,重点关注商务智能、数据分析和数据可视化技术。

大数据分析>更多

相关推荐

技术手册>更多

  • 医疗行业BI应用案例集锦

    本次技术手册汇总了医疗行业BI用例,包括Oracle EBS部署、惠普Vertica分析平台使用、数据库虚拟化技术、大数据分析技术、物联网技术等。

  • SQL Server服务代理指南

    本专题介绍了SQL Server服务代理相关方面的知识,包括SQL Server服务代理基础知识的概述、消息类型、契约、队列、服务和路由、SEND命令和RECEIVE命令、性能方面的改进以及对运行状况的监控等等。

  • 电子书:你需要知道的Hadoop 2

    在本次的TechTarget商业智能电子书当中,我们关注了Hadoop 2的新特性、对YARN的技术解析、Hadoop应用实践、常见问题及市场需求。

  • 企业数据集成实践手册

    我们今天谈到的数据集成早已不是几年前或十几年前数据集成的概念,它现在与商务智能(BI)相结合、与“大数据”密不可分,因此,我们需要重新认识并操控它。

TechTarget

最新资源
  • 安全
  • CIO
  • SOA
  • 数据库
  • 网络
  • 云计算