实时流处理加速大数据分析 用户有哪些期待?

日期: 2016-11-03 作者:Craig Stedman翻译:冯昀晖 来源:TechTarget中国 英文

对于大多数组织来说,他们没有时间处理和分析大数据系统中的信息。越来越多的IT供应商在发布支持实时流分析处理的技术和软件包。

Comcast公司是实时处理应用的领先者。这家电视和电影巨头把数据科学团队使用的Hadoop从300个计算节点扩展到了480个。此外,Comcast公司计划把系统升级,使用Apache Kudu。这是一款开源数据存储包,专为处理流数据的实时分析应用而设计,目前更新频率很高。

Kiran Muglurmath是这家公司的数据科学兼大数据分析执行董事,他说,对于他们来说,更新能力是一件大事。我们的Hadoop集群是在今年早些时候搭建的,目前已经承载了PB级信息量,包括从电视机顶盒收集来的数据,这些数据记录了客户看电视的活动情况和机顶盒自身运行情况。但是Muglurmath的团队需要保持数据尽可能实时最新以便有效分析,这就意味着需要通过表扫描作为新信息输入途径来更新个人记录。

Sridhar Alla是该公司负责大数据架构的设计总监,他认为要在Hadoop分布式文件系统(HDFS)及HBase数据库中实现上述目标会非常耗时,对于PB级别数据处理需要的时间太长了。而Kudu产品在过去三个月来极大地加速了概念验证项目的处理过程。Alla在Strata+Hadoop 2016全球大会上提到,在测试环境中,Kudu每秒钟可以扫描超过二百万行数据,它还能以最快速度把数据写入磁盘。

实时处理漫长等待的时代要结束了

Kudu技术框架是Hadoop供应商Cloudera公司去年创建的,之后开放了源代码。Apache软件基金上周发布了Kudu1.0.0,这是该产品发布的第一个产品版,Comcast公司一直在等待Kudu发布这一版。

Muglurmath在那次会后表示,基于Cloudera扩展的Hadoop集群应该会在十月末完成。Kudu将配置到所有计算节点以及HDFS上,HDFS将会继续存储其它类型的数据。数据科学团队还计划使用Impala,这是一款基于Hadoop的SQL查询引擎,也是由Cloudera公司开发,它可以把HDFS和Kudu的数据连接起来做分析。

Dell EMC是IT供应商戴尔技术公司的数据存储单元,它也在追随实时流技术的方向以支持其公司内部分析工作。

他们的IT团队使用Spark处理引擎和其它数据摄取工具处理实时数据与客户的交互,把数据转入各种数据库中,包括:Cassandra,GemFire,MemSQL和PostgreSQL。Darryl Smith是该公司首席数据平台架构师,他说,系统会针对数据运行自动算法,生成分钟级的客户体验评分,帮助指导戴尔 EMC的销售团队在销售订购技术支持服务时参考。

客户交互数据还会存入Hadoop数据湖中,不过那是用于长期分析和趋势分析的。Smith说,对于客户评分应用,不能只是把所有数据扔到Hadoop中,然后让销售代表去解读。把实时数据汇集和形成可指导行动的分析建议不是一回事。

这意味着相同的数据被处理和存储在戴尔EMC大数据架构中的不同位置,但是Smith并不认为这是坏事。他开玩笑说:“这么说并不是因为我是在为存储公司工作(因此希望推销多用存储),如果你可以从数据获取价值,你可能需要把数据存储在多个地方,因为你会以不同的方式消费掉这些数据。”

戴尔EMC采用了开源Kafka消息队列工具作为实时流处理的工具之一,用来把数据推送到MemSQL。MemSQL是专为实时应用设计的一款内存数据库。MemSQL公司本周发布了5.5版本,更新的版本支持Kafka连接创建数据管道,这意味着数据传输只能处理一次,保证交付而且不会丢失数据。Smith说,这种保证对于戴尔EMC这种实时分析处理来说是至关重要的。

容忍一些实时数据丢失

对于eBay公司来说,保证数据交付并不是必须的。这家在线拍卖和电子商务公司使用了另一款开源软件Pulsar,这也是专门为处理和分析流数据而设计的,可以分析用户活动数据从而推动eBay网站的个性化服务。在过去三年里构建和扩展实时架构时,eBay的IT团队认为,他们不需要花额外的开发投入来构建保障交付的数据管道。

Tony Ng是eBay公司用户行为分析及数据服务技术总监,他说:“在这种情况中,我们是可以容忍丢失一点数据的。”在数据流进来的时候,Ng的团队确实不需要疲于奔命。例如,目标之一是检测网站机器人,把它们与真正访问生成的活动数据区分开来,避免那些数据干扰真实用户的个性化行为分析。这需要频繁更新eBay分析算法内置的机器人检测规则。

该公司实时流处理还使用了Kafka作为传输机制,还用了其它几种开源技术:Storm、Kylin和Druid处理和存储数据。Ng发现,流式操作与以前eBay批量加载数据到Hadoop集群和Teradata数据仓库的方式有很大不同。

他说:“对这些数据的处理量是有限制的。这些数据最终会批量清理和整合传给分析应用,但是问题是需求是实时,我们希望保持实时性。”

Mark Madsen是Third Nature公司负责数据管理和分析咨询的总裁,他说,把实时数据流和分析放到一起的架构本身就是很复杂的。

用户还可以使用其它流技术,例如:Spark的Spark流处理模块和Apache Flink(新崛起可替代Spark的产品)但是,把较多工具组装到一起通常需要做更多整合工作。Madsen说:“个别IT供应商可以解决一部分问题,但是要解决所有问题是很难的。”

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

相关推荐