搭上机器学习这辆快班车 你还需要多久

日期: 2016-05-12 作者:Jack Vaughan翻译:张亮亮 来源:TechTarget中国 英文

大数据技术让机器学习有了更为广阔的应用前景。但是对于用户来说,要想部署成功还要考虑新型IT基础设施和教育问题。 那些正挣扎在大量企业数据中的IT和分析管理人员可能发现,他们很难忽略不断变化的市场会推进从技术供应商那里获得机器学习工具。而且这有着充分的理由:进行自主学习的自动化算法可以通过大型数据集来加速数据挖掘和可预测分析应用程序,并给予用户宝贵的信息。

但是那些希望利用机器学习的公司往往面临着巨大的学习曲线。 对于初学者来说,许多大数据基础技术(包括Hadoop,Spark处理引擎和相关开源软件)通常都是机器学习工作的基础。在很多情况下,这意味着要从头建立一套合适的数据处理和管理架构。此外,分……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

大数据技术让机器学习有了更为广阔的应用前景。但是对于用户来说,要想部署成功还要考虑新型IT基础设施和教育问题。

那些正挣扎在大量企业数据中的IT和分析管理人员可能发现,他们很难忽略不断变化的市场会推进从技术供应商那里获得机器学习工具。而且这有着充分的理由:进行自主学习的自动化算法可以通过大型数据集来加速数据挖掘和可预测分析应用程序,并给予用户宝贵的信息。但是那些希望利用机器学习的公司往往面临着巨大的学习曲线。

对于初学者来说,许多大数据基础技术(包括Hadoop,Spark处理引擎和相关开源软件)通常都是机器学习工作的基础。在很多情况下,这意味着要从头建立一套合适的数据处理和管理架构。此外,分析团队必须频繁改变他们的方法。例如,与过去相比,要增加新技术技能并采用不同的分析方法。

商业财产和意外保险公司Zurich Insurance Group的子公司转向机器学习帮助客户所面临业务风险提出改进方法,并在处于数据潮汐波段顶端时对定价策略进行分析。Conor Jensen 是Zurich North America的分析项目主管,他说,“我们所看到的大量数据需要运用大规模机器学习进行处理。”

但是Jensen表示一家名为Schaumburg, Ill.的公司用了10个月时间建立一套基于Hadoop的分布式处理架构以支持新的分析应用程序。这包括评估潜在供应商,运行概念验证项目,在不同的Hadoop集群上部署两个内部连接的数据湖和一款H2O开源机器学习平台的商业版本,而该软件是来自一家名为H2O.ai的软件供应商。

该设置围绕Hadoop的Hortonworks分布而建,包括一个生产湖和一个研究数据湖。前者从所有Zurich的内部系统拉取数据种子,然后将处理过的数据集交由后者,保险公司预测分析团队就是用它们来测试和运行风险分析模型的。Hadoop集群驱动的分析应用程序要比以前的传统独立系统在处理该模型上更加迅速,Jensen说,“如果一切设置正确,运行的时间通常是之前的10%甚至更少。”

让分析团队就位来为新环境下的机器学习创建有效模型的确花费了一些精力。Jensen和Zurich必须对大数据分析常见专业知识进行积累,而这些专业知识是在Hadoop开发和使用中创立的大型Web公司中发现的。“我们并不是PayPal或是Google,我们是曲线的另一端,”他指出。

Jensen的团队的确拥有十来年使用诸如R以及Python等语言来创建广义线性模型的宝贵经验,该模型是一项同样可用于机器学习应用程序的基本统计分析构建块。但是他说在Hadoop中开发程序曾是一项挑战。据Jensen说,另外一个巨大的障碍是将内部思维从精算方法转变为典型保险业中的分析——即将“硬”统计分析规则变为更具实验性的机器学习流程。Zurich同样必须雇佣有机器学习经验的新员工并对已有员工进行新技术的再培训。

运行空间

更多的公司可能会在将来面临这些挑战。2015年中期TDWI所做的一项调查显示,机器学习工具仍是一项小众技术。344位受访者中不到五分之一的人表示他们所在企业在使用机器学习。根据去年十月由TDWI发布的一项调查报告显示,在一份有27项商业智能和分析技术的名单上,机器学习只排到第18名。但是另外的36%的受访者说他们希望自己所在的企业能够在三年内开始使用机器学习平台。

尽管机器学习的采用率相对较低,但是它并不是一个新领域。机器学习方法的实验性使用可以追溯到人工智能早期。它在前沿企业中作为数据挖掘和预测分析业务的重要技术已经有很多年了。机器学习的一个有效应用点是在线推荐引擎,这在Amazon、Netflix和其他网站对用户来说是明显可见的。还有其他常见的应用包括欺诈检测,销售预测,预测设备维护,可编程在线广告以及定价优化。

但是对更多的企业来说,诸如Hadoop和Spark之类大数据平台的出现让机器学习变得可行且可以负担。而且各种各样的IT供应商也希望搭上这班快车。

机器学习工具供应商包括IBM和SAS Institute这样的老牌分析供应商,还有像 Alpine Data Labs,H2O.ai和Skytree这样的专业初创公司。基于云的产品同样可以从Amazon Web Services,Google以及Microsoft等公司获得。此外,用户还可以利用诸如Apache Mahout和Google的TensorFlow等开源机器学习技术。在后端,Hortonworks和对手Hadoop的分销商Cloudera以及MapR Technologies都宣称他们有能力支持机器学习应用程序,就如同Databricks,它是Spark背后的推动力量,它包括了一个机器学习算法库。

解锁机器学习

Peter Crossley是在Webtrends公司负责产品架构和技术的主管,他将机器学习看做是在Portland, Ore.公司二十多年分析工作的自然延伸,该公司从网站、移动设备和物联网收集并分析用户活动数据以支持其客户的在线营销项目。但是自从2015年初将基于Hortonworks的Hadoop集群加入全面生产并在八个月之后增加了Spark,Webtrends已经能大大加快其高级分析的工作。

Crossley说,总体而言,Webtrends每天在130亿个在线事件上收集数据,每个季度总计会有500太字节的新信息。幸亏有了新的架构,分析数据的流程一直接近于实时。例如,机器学习模型现在正用于即时为网站访问者打分,如此一来,可以为他们提供个性化的网页视图和在线服务。类似Hadoop和Spark技术的出现“已经对机器学习进行了解锁,”Crossley说,“如今,你可以执行一个批处理流程并使之‘高度并行’。”

Webtrends的大数据分析之旅还包括大量开源设施的构建。除了Hadoop和基本的Apache Spark软件,该公司所使用的技术包括Kafka消息队列系统以及Samza和Storm流处理框架。

然而它并不是一个静态环境。像许多其他大数据用户一样,Crossley的团队在必要的时候会开放新技术的交换。例如,Webtrends现在正在使用Spark和Samza的组合来做一些Storm最初在捕获和处理数据流方面的工作。随着新业务和分析需求的出现,大数据和机器学习架构要求具有灵活性,Crossley说。他补充说松散耦合的体系架构有助于保证灵活性。他还指出,已经证明Webtrends在没有硬连接到处理操作的情况下,Kafka通过该架构迁移数据是有效的。

对前沿技术需要谨慎

Andrew Musselman是效力于咨询公司Accenture全球数据科学实践部的首席数据科学家,他还是Mahout项目管理委员会的成员,他同样建议未来的机器学习用户在可用基础技术上期望快速而持续的变化。“我们现在处在一个制造工具的时代,这需要一段时间才能安定下来,”Musselman解释说,这是他以Mahout的角色所说的一番话。“工具会被记录并采用,然后有时会被抛弃。”

此外,很多Hadoop周边的开源工具发展迅速,因此用户需要跟上新版本常规发布的步伐。Mahout就是一个很好的例子:Apache Software Foundation在2015年期间发布了五个版本的机器学习技术。

就其他类型的高级分析应用程序来说,机器学习用户在获取他们的预测模型来产生精确结果时同样会遇到障碍。但是它在机器学习工作中所表现出来的方式会更具挑战,这是由所包含的数据集大小以及相应的开发和处理复杂性所造成的。

Zoiner Tejada是开发与咨询服务提供商Solliance 的CEO兼架构师,他说,“要从思想到模型到‘训练’然后再到整体实施会是一个相当困难的过程。”Tejada还是分析服务初创公司Algebraix Data的CTO,他说分析团队并不会因这些努力而获得回报。“机器学习是一种强大的工具,但是你不要对自己的角色进行削减,”他说,“你可能拥有一个看似可以工作的模型,但是后面你会发现它的预测是不准确的。”

Zurich North America的Jensen表示同意,他说:“机器学习的承诺是夸大了的。”即使你度过了最初的如何让其工作的学习曲线,该流程也并不容易,他警告说,首先,每个构建到模型中的变量都需要前期的数据准备和操作。比起实施最终算法本身,这些工作做起来可能会更加困难。

在建立基础设施、处理数据和开发机器学习模型之外还存在着另一个陷阱,它被称为最后的院落,在那里是由业务层面进行决策的。Jensen说,“如果终端用户不知道如何有效使用我们的成果训练,拥有最好的算法也没有任何意义。”

作者

Jack Vaughan
Jack Vaughan

TechTarget新闻记者和网站编辑,主要关注数据管理领域的技术趋势和动态。

翻译

张亮亮
张亮亮

TechTarget特邀编辑。毕业于北京邮电大学网络技术研究院。熟悉软件开发测试的各个环节和流程,对操作系统,数据库,计算机网络等有较为深入的理解。现就职于中国电子科技集团公司下属研究所,从事软件研发工作。热衷于英文的学习交流,平时喜欢户外运动,音乐,电影。

相关推荐