实时流处理加速大数据分析用户有哪些期待？

对于大多数组织来说，他们没有时间处理和分析大数据系统中的信息。越来越多的IT供应商在发布支持实时流分析处理的技术和软件包。

Comcast公司是实时处理应用的领先者。这家电视和电影巨头把数据科学团队使用的Hadoop从300个计算节点扩展到了480个。此外，Comcast公司计划把系统升级，使用Apache Kudu。这是一款开源数据存储包，专为处理流数据的实时分析应用而设计，目前更新频率很高。

Kiran Muglurmath是这家公司的数据科学兼大数据分析执行董事，他说，对于他们来说，更新能力是一件大事。我们的Hadoop集群是在今年早些时候搭建的，目前已经承载了PB级信息量，包括从电视机顶盒收集来的数据，这些数据记录了客户看电视的活动情况和机顶盒自身运行情况。但是Muglurmath的团队需要保持数据尽可能实时最新以便有效分析，这就意味着需要通过表扫描作为新信息输入途径来更新个人记录。

Sridhar Alla是该公司负责大数据架构的设计总监，他认为要在Hadoop分布式文件系统（HDFS）及HBase数据库中实现上述目标会非常耗时，对于PB级别数据处理需要的时间太长了。而Kudu产品在过去三个月来极大地加速了概念验证项目的处理过程。Alla在Strata+Hadoop 2016全球大会上提到，在测试环境中，Kudu每秒钟可以扫描超过二百万行数据，它还能以最快速度把数据写入磁盘。

实时处理漫长等待的时代要结束了

Kudu技术框架是Hadoop供应商Cloudera公司去年创建的，之后开放了源代码。Apache软件基金上周发布了Kudu1.0.0，这是该产品发布的第一个产品版，Comcast公司一直在等待Kudu发布这一版。

Muglurmath在那次会后表示，基于Cloudera扩展的Hadoop集群应该会在十月末完成。Kudu将配置到所有计算节点以及HDFS上，HDFS将会继续存储其它类型的数据。数据科学团队还计划使用Impala，这是一款基于Hadoop的SQL查询引擎，也是由Cloudera公司开发，它可以把HDFS和Kudu的数据连接起来做分析。

Dell EMC是IT供应商戴尔技术公司的数据存储单元，它也在追随实时流技术的方向以支持其公司内部分析工作。

他们的IT团队使用Spark处理引擎和其它数据摄取工具处理实时数据与客户的交互，把数据转入各种数据库中，包括：Cassandra，GemFire，MemSQL和PostgreSQL。Darryl Smith是该公司首席数据平台架构师，他说，系统会针对数据运行自动算法，生成分钟级的客户体验评分，帮助指导戴尔 EMC的销售团队在销售订购技术支持服务时参考。

客户交互数据还会存入Hadoop数据湖中，不过那是用于长期分析和趋势分析的。Smith说，对于客户评分应用，不能只是把所有数据扔到Hadoop中，然后让销售代表去解读。把实时数据汇集和形成可指导行动的分析建议不是一回事。

这意味着相同的数据被处理和存储在戴尔EMC大数据架构中的不同位置，但是Smith并不认为这是坏事。他开玩笑说：“这么说并不是因为我是在为存储公司工作（因此希望推销多用存储），如果你可以从数据获取价值，你可能需要把数据存储在多个地方，因为你会以不同的方式消费掉这些数据。”

戴尔EMC采用了开源Kafka消息队列工具作为实时流处理的工具之一，用来把数据推送到MemSQL。MemSQL是专为实时应用设计的一款内存数据库。MemSQL公司本周发布了5.5版本，更新的版本支持Kafka连接创建数据管道，这意味着数据传输只能处理一次，保证交付而且不会丢失数据。Smith说，这种保证对于戴尔EMC这种实时分析处理来说是至关重要的。

容忍一些实时数据丢失

对于eBay公司来说，保证数据交付并不是必须的。这家在线拍卖和电子商务公司使用了另一款开源软件Pulsar，这也是专门为处理和分析流数据而设计的，可以分析用户活动数据从而推动eBay网站的个性化服务。在过去三年里构建和扩展实时架构时，eBay的IT团队认为，他们不需要花额外的开发投入来构建保障交付的数据管道。

Tony Ng是eBay公司用户行为分析及数据服务技术总监，他说：“在这种情况中，我们是可以容忍丢失一点数据的。”在数据流进来的时候，Ng的团队确实不需要疲于奔命。例如，目标之一是检测网站机器人，把它们与真正访问生成的活动数据区分开来，避免那些数据干扰真实用户的个性化行为分析。这需要频繁更新eBay分析算法内置的机器人检测规则。

该公司实时流处理还使用了Kafka作为传输机制，还用了其它几种开源技术：Storm、Kylin和Druid处理和存储数据。Ng发现，流式操作与以前eBay批量加载数据到Hadoop集群和Teradata数据仓库的方式有很大不同。

他说：“对这些数据的处理量是有限制的。这些数据最终会批量清理和整合传给分析应用，但是问题是需求是实时，我们希望保持实时性。”

Mark Madsen是Third Nature公司负责数据管理和分析咨询的总裁，他说，把实时数据流和分析放到一起的架构本身就是很复杂的。

用户还可以使用其它流技术，例如：Spark的Spark流处理模块和Apache Flink（新崛起可替代Spark的产品）但是，把较多工具组装到一起通常需要做更多整合工作。Madsen说：“个别IT供应商可以解决一部分问题，但是要解决所有问题是很难的。”

我们一直都在努力坚持原创.......请不要一声不吭，就悄悄拿走。

我原创，你原创，我们的内容世界才会更加精彩！

【所有原创内容版权均属TechTarget，欢迎大家转发分享。但未经授权，严禁任何媒体（平面媒体、网络媒体、自媒体等）以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget

官方微博

TechTarget中国

取消回复

要发表评论，您必须先登录。

作者

: Craig Stedman

翻译

: 冯昀晖

实时流处理加速大数据分析用户有哪些期待？

实时处理漫长等待的时代要结束了

容忍一些实时数据丢失

取消回复

作者

Craig Stedman

翻译

冯昀晖

相关推荐

Cloudera-Hortonworks合并或将减少Hadoop用户的选择

采矿设备制造商利用BI on Hadoop来挖掘数据

新Qlik Sense功能可用于云计算、AI和大数据

数据分析是关于文化，而非技术

实时流处理加速大数据分析 用户有哪些期待？

实时处理漫长等待的时代要结束了

容忍一些实时数据丢失

取消回复

作者

Craig Stedman

翻译

冯昀晖

相关推荐

Cloudera-Hortonworks合并或将减少Hadoop用户的选择

采矿设备制造商利用BI on Hadoop来挖掘数据

新Qlik Sense功能可用于云计算、AI和大数据

数据分析是关于文化，而非技术

实时流处理加速大数据分析用户有哪些期待？