引领“大数据技术风暴” 机器学习正当下

日期:2016-12-22作者:Jack Vaughan

机器学习   大数据   IoT   Hadoop   

【TechTarget中国原创】

Ovum(咨询顾问公司)的分析师Tony Baer分享了他对于云端机器学习工具,物联网驱动流分析和Hadoop的一些观点。这些技术在2016年备受人们关注,2017年这种趋势将会延续。

技术的实际应用前景才是推动技术进步的根本,特别是今年的一些主流技术。Ovum分析师Tony Baer深知这一点,当他在2017年的Ovum report预测大数据发展趋势时,主要依据就是今年的技术应用情况。

Baer得出了如下结论,机器学习项目,物联网(IoT)和实时流媒体分析,这些技术在2016获得了广泛关注,在未来一年,他们依然将引领技术趋势。在一次采访中,他深入讨论了这些话题,他认为,基于云技术的Hadoop系统的发展,特别是在流分析领域,用例和技术可能是会形成一个完美的集合,引领“技术风暴”,他说。

您认为,机器学习将是2017大数据分析的最大搅局者。不过,机器学习项目是否仅限于那些大型公司,其使用范围是否更为广泛?

Tony Baer:它的应用范围很广。许多情况下,企业和消费者已经开始使用内嵌机器学习的服务了,他们只是没有意识到而已。但是,数据科学家能够自主编写并使用机器学习算法,能够进行内部开发的企业数量是有限的,所以机器学习在企业中的发展依然是受限的。现在已经可有用于机器学习的算法库,所以你不必再从头编写算法。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

评论
查看更多评论

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

作者>更多

Jack Vaughan
Jack Vaughan

TechTarget新闻记者和网站编辑,主要关注数据管理领域的技术趋势和动态。

Hadoop>更多

相关推荐

技术手册>更多

  • 数据仓储和数据仓库

    20年前人们首次创造了“数据仓储”这一术语。从那以后,Fortune 1000家公司的主流活动都会涉及到这个词,因为在后来的十多年中这些公司的数据仓储的项目有很多。但是20年后的市场上,数据仓储仍然被人们误解。本节主要介绍了数据仓储的概念、给数据仓储初学者的建议、数据仓库的管理技巧、有关数据仓库设计问题以及如何进行数据仓库故障或灾难恢复。针对这些问题,数据仓储相关方面的专家进行了详细的解答。

  • 电子书:你需要知道的Hadoop 2

    在本次的TechTarget商业智能电子书当中,我们关注了Hadoop 2的新特性、对YARN的技术解析、Hadoop应用实践、常见问题及市场需求。

  • 体育行业BI案例集锦

    本次技术手册,我们为您精心总结了多个体育行业的BI应用案例,让您更加直观地感受BI技术与竞技体育结合所碰撞出的火花。

  • 数据仓库最佳实践手册

    在本次的TechTarget数据库技术手册中,我们将为您带来一些有关数据仓库的最佳实践,其中包括数据仓库的评估、数据仓库管理技巧、数据仓库实施案例等内容,希望能对DBA的工作带来一定的帮助。

TechTarget

最新资源
  • 安全
  • CIO
  • SOA
  • 数据库
  • 网络
  • 云计算
【TechTarget中国原创】

Ovum(咨询顾问公司)的分析师Tony Baer分享了他对于云端机器学习工具,物联网驱动流分析和Hadoop的一些观点。这些技术在2016年备受人们关注,2017年这种趋势将会延续。

技术的实际应用前景才是推动技术进步的根本,特别是今年的一些主流技术。Ovum分析师Tony Baer深知这一点,当他在2017年的Ovum report预测大数据发展趋势时,主要依据就是今年的技术应用情况。

Baer得出了如下结论,机器学习项目,物联网(IoT)和实时流媒体分析,这些技术在2016获得了广泛关注,在未来一年,他们依然将引领技术趋势。在一次采访中,他深入讨论了这些话题,他认为,基于云技术的Hadoop系统的发展,特别是在流分析领域,用例和技术可能是会形成一个完美的集合,引领“技术风暴”,他说。

您认为,机器学习将是2017大数据分析的最大搅局者。不过,机器学习项目是否仅限于那些大型公司,其使用范围是否更为广泛?

Tony Baer:它的应用范围很广。许多情况下,企业和消费者已经开始使用内嵌机器学习的服务了,他们只是没有意识到而已。但是,数据科学家能够自主编写并使用机器学习算法,能够进行内部开发的企业数量是有限的,所以机器学习在企业中的发展依然是受限的。现在已经可有用于机器学习的算法库,所以你不必再从头编写算法。

最近出现了新兴的协作工具,旨在建立数据科学家和数据工程师或者业务人员之间的联系。你可能看到使用工具的企业数量日渐增多,但这些也仅限于在那些拥有大量资源的企业,这类企业一般都是使用Hadoop的先锋。

有时似乎人们没有意识到机器学习项目需要一个学习阶段,这可能是最费时的,充满了试验和错误的阶段。

Baer:对的。几年前,数据科学是热门话题。每个人都希望被称为“数据科学家”,并希望把这个职位印在他们的名片上。现在,新兴的东西是机器学习,所有数据科学家都想和它搭上关系。

他们可能忘记了重要一步:你必须首先学习数据科学。这不是机器学习的同义词。它是科学的同义词,因为你需要不断地测试假设。它需要用科学方法分析阻碍并解决问题。它需要很大的耐心和毅力。

机器学习的频谱范围涉及很广,从单终端异常检测集群到集群深层的深度学习和认知(计算)都有机器学习的应用。但是,在继续使用机器学习之前,你需要掌握数据科学,包括高级模式识别和许多不同方法.。

短期内,机器学习主要通过打包到应用程序来产生影响,如供应链优化,智能电网,威胁和欺诈检测软件等。它将嵌入这些应用程序。机器学习的主要影响力依然是通过包含它的应用产生的。

你提到的机器学习的用户类似于Hadoop的用户。那项技术花了一段时间才能真正推广开来。现在,似乎成了云的束缚。你认为Hadoop迁移到云中的速度会很快吗?

Baer: 我所谓的Hadoop是一个多元的操作系统。这是关于混合和匹配的问题,这使得它很难被解释,并可能对市场造成一定程度的混淆。现在在云中,它甚至更难解释。因为当你进入Amazon云,你可能不会使用到Hadoop分布式文件系统,而会使用S3(即Amazon Simple Storage Service)。

Hadoop不是为云而生的,但它与云的结合将是不可避免的趋势。大约一年前,15%到20%的新工作负载将流向云端。现在,这个比例已经变成三分之一。我预计,未来12到18个月内,这个数字将达到50%。

数据流与复杂事件处理(CEP)具有相似性的,重点在于“复杂”。我们这些天在处理不同的事件,大多事件是类似于手机活动和点击流。但这样的情况真的有所不同吗?

Baer:复杂的事件处理是问题的一个解决方案。除了一些专门的案例,比如金融服务,其中的边缘处理是他们工作一部分,也是他们竞争的一部分。但是现在,我们有了较为完美的解决方案。

这是因为基础设施变得更加方便和廉价,特别是随着云的出现。在有CEP的情况下,当你需要处理的事件不是很多时,意义并不大。但是,当你可以像我们现在这样扩大基础设施的规模时,它就称为了一个可行的解决方案。物联网正在这么做。

使用物联网并取得实际的价值,这种用例确实存在。物联网正在增加实时流分析的必要性。例如包括任何事物的物理运动,无论是供应链,网络优化或智能城市等。或者例如,在工作领域的资产管理和车队管理。所有这些用例是有形的,实际上都具有明确的商业价值。

我们有更多的智能设备,这些设备在产生真正的信息。就是这些信息在驱动着流分析,这是开源技术和专有技术的混合体。CEP的处理十分昂贵,有一些工具是专有的,需要非常专业的技能。有了开源技术,学习和实验的障碍就减少了。当所有这些事情正在发生时,那将是一场完美的“技术风暴”。