大数据时代的网络变革

日期: 2014-11-27 作者:Marten Terpstra翻译:Eunice 来源:TechTarget中国 英文

作为网络工程师的你可能已经意识到了大数据带来的挑战。无疑,大数据带来的应用程序的变革和开发数量的增加,对网络提出了全新的要求。

上周在纽约参加Hadoop全球大会,作为网络工作者,我第一次感到失落。这并不是流于表层的缺乏归属感,相反,网络在这些应用程序中有着极其重要的作用。真正的问题在于,很多网络工作者还不能理解,或认识到这一点,但相反,大数据应用程序工作者已经很好地理解了网络在他们整体应用程序和性能中的重要作用,我也是不久前才意识到这一点。

今天典型的数据中心基础架构是基于松耦合的应用程序和半分布式存储的。基于Web的应用程序有很多组件共同组成,形成了我们用户看到的应用程序。其中包括应用程序负载均衡、Web前端服务器、后端应用程序和用于存储数据的数据库。这些数据库有本地的、或更集中化的、或半分布式的物理存储。这些存储系统有复制和备份组件。所有这些交互都是数据中心中把后端数据交到应用程序用户手中必须的条件。

这样传统的分布式应用程序的沟通模式比较容易理解。一些基本的测量和分析手段可以帮助你了解应用程序的每个组件是如何工作的,性能如何以及它们之间的网络要求。在部署之前,应用程序开发人员可能不会提供给你确定的需求和指导,但是一旦应用程序经过了至少一次扩展和性能调整周期,它就会落入特定的模式,与应用程序的生命保持高度一致。网络工程师的工作就是保证网络能够提供这些沟通模型需要的适当的连接。

但是,大数据应用程序把这一模式发展到新高度。在设计之初,大数据应用程序就是要运行在并行或分布式系统中的。它们依赖于在计算基础架构之间大量数据的迁移。大数据应用程序得以构建的前提就是,数据和计算是分布式的,并且是可以跨大数据集群进行复制的。很多应用程序都是用来解决多种不同的数据分析工作的。每一个应用程序在它的数据集、它的数据缩减行为中都是不同的,因此,它对网络的需要也是不同的。所以,和过去的模式比起来,你需要一个动态的网络。

今天,很多大数据的部署都是基于1GB的网络。因此很容易得出结论:网络不是问题。其实,这是最大的错误。我们很容易误认为大数据项目就是针对大规模数据集,计算密集型分析和缩减。但事实上,很多大数据应用程序都是基于半实时的流数据,每一条数据可能只需要很少的计算,但所有数据加起来,需要的连接水平可能是我们无法想象的。

在上周的Hadoop世界大会上,我和一名广告技术公司的员工聊了聊。广告技术公司是市场和广告行业下发展很快的次级行业,专注做数字广告和市场。他问我一些关于Plexxi网络性能特征的问题,我就问他关于他网络部署的一些细节,他说他管理一个拥有200个服务器的大数据集群,他只能在资源爆发拥堵问题之前,填充一半的交换机可用端口。他的集群能够每秒把整个机架推动700GB到1TB。现在很少有网络基础架构能够专门设计来支持这种应用程序。

也许有人会说,他为什么不使用基于为200台设备配置的交换机的大型机箱呢?从网络行业来看,我相信我们会做的是创建一个更大的中央化的交换机,这是业内相同数据中心里不曾有过的。

还有人说,可以增加带宽啊。这家广告技术公司只是我们重新思考支持新应用方式的触发点。我们最终要实现的是,用此前构建的网络去支持新的应用程序架构,满足新的需求。应用程序在不断演进。服务器、存储和它们的应用方式也在不断演进。网络工程师需要加入到大数据世界的队伍中来。这是很困难的,很多技术,甚至是名词都是网络工程师没听说过的。网络世界已经够能造新词了,但应用程序的世界显然更胜一筹!

不要害怕这些新的应用程序。无论你欢迎与否,他都已经来了。你能做的只能的拥抱他、竭尽全力理解他。然后静下心来想一想自己能如何利用它。不过前提是你必须走出传统思想的桎梏,付出足够的努力与时间,这样才能取得回报。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

翻译

Eunice
Eunice

相关推荐