Hadoop:数据依赖型公司最有价值的工具

日期: 2015-08-06 作者:Bethany Cleg翻译:曾少宁 来源:TechTarget中国

Hadoop是什么?为何它如此重要?

Hadoop提供了一个用于存储大规模数据的开源平台。Hadoop是一个开放工具集,支持可变连接类型和数据结构。它开放给云环境中位于多个主机的分布式数据平台。简单地说,它是一种数据存储方式,支持使用多个平台和多个操作系统的多个计算机。它是一个Apache开源项目,支持搜索Web中的大数据。它是一组批处理工具,可供任何公司使用。它并不是单独一个下载后在网站或应用中运行的应用程序。

大数据

大数据是一种现代云基础架构,它包含了多种与其他人连接和共享信息的方法。它推动了“物联网”的发展,如通过社交网站连接人、通过共享朋友或网络来寻找人们之间互相认识的可能性。大数据的背后运行着人工智能,而它对于大多数人而言是完全透明的,人们不知道背后有这样的技术。大数据位于人们日常使用的智能手机之后,然后人们通过它给移动互联网贡献信息,即使他们并没有意识到这一点。

此外,大数据对于人脸识别软件等也有贡献。Facebook等公司利用这些技术去询问人们是否想要给其他人或公司打上“标签”,使软件平台能够识别和认出他们。大数据会在专业网络或约会网站中根据人们分享的兴趣或职场关系将他们连接在一起;更重要的是,医疗公司同样利用大数据去分析大规模生物数据,以实现伴随诊断和个性化医疗。

为什么大数据很重要? 

大数据的重要性体现在很多方面。首先,它可以识别人们上网浏览的模式,从而给特定类型的人或群组推送与访问内容相关的广告及发送电子邮件或社交媒体广告。其次,它可以扫描用户选择屏蔽的内容,如特定类型的广告或媒体。第三点可能也是最重要的一点,它可以根据用户的上网浏览活动推荐各种网站或广告。这可以根据广告点击、视频观看、社交网站链接点击和特定关键词来实现。此外,Hadoop也可以很好地整合其他数据集。微软BI工具也支持Hadoop,它可以方便地整合多个数据工具,可以将多个设备的多个平台协同工作。

Apache也推出了支持Hadoop的开源分布式分析引擎OLAP。它属于一个名为Kylin的项目,目的是为了缩短Hadoop数据集的查询延迟时间。EBay公司设计了OLAP的SQL接口,作为支持一些最大型数据集的方法。此外,Kylin还支持压缩和编码、简单易用的Web界面和作业管理与监控。

Hadoop有何作用?

互联网巨头谷歌、Twitter和Facebook等一直都有能力利用Hadoop管理超大规模数据。Hadoop是一个用于解决大规模数据问题的非商业解决方案。Hadoop是一个分布式计算系统,底层基于Linux操作系统。这意味着Hadoop在处理数据时并不需要使用传统的高端超级计算机,而是用许多普通计算机来处理数据。Hadoop系统能够在任意时间处理超大规模且不断增长的数据,而计算机网络则是它的重要组成部分。换而言之,原来需要购买昂贵硬件和雇佣专业技术人员才能完成的工作,现在都可以在云中交由一些非专业人员完成。增加业务效率就可以在不增加员工数量的前提下完成更多的工作。大数据的设计初衷就是这一点。除了财务和销售,许多公司还使用大数据解决方案跟踪员工和内部流程。为什么呢?因为这些数据可以帮助他们发内部的“漏洞”,发现员工在哪些方面最需要改进和帮助。这自然就转化为开展定制培训或精简组织结构。用大数据构建的内部蓝图清楚地告诉人们:业务决策完全可以变成一种轻松愉快的过程。

因此,为业务发展提供帮助是Hadoop的一个重要任务。它依靠各种相对廉价的计算机。如果有一台计算机出现问题,那么更换它也比更换一直使用的大规模超级计算机容易得多。Hadoop包含一组工具,而不只是一个提供数据管理功能的软件。它也是一个开源平台,这意味着它可以根据公司需求而扩展,并且不需要大规模硬件或软件投入。

总结

只要有许多用户使用网站来完成数据库管理及其他工作,Hadoop就可以完成任何数据库需求。Hadoop可以根据公司特定产品的用户反馈而扩展使用任意数量的公司物理主机,并且一切都会在公司运营主管的指示下进行。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

翻译

曾少宁
曾少宁

TechTarget中国特约技术编辑,某高校计算机科学专业教师和网络实验室负责人,曾任职某网络国际厂商,关注数据中心、开发运维、数据库及软件开发技术。有多本关于思科数据中心和虚拟化技术的译著,如《思科绿色数据中心建设与管理》和《基于IP的能源管理》等。

相关推荐