数据可视化技术:高级分析的核心工具

日期: 2016-11-13 作者:Ed Burns翻译:杨宏玉 来源:TechTarget中国 英文

在高级分析应用程序中,数据可视化技术的核心作用是规划和开发预测模型以及展示分析结果。 预测建模和其他类型的高级分析背后,有着强大的软件支持,这些软件是专门为在大型数据集上运行复杂算法所设计的,如编程语言R和Python,以及分析工具如SAS和IBM SPSS。但是很多数据科学家和分析经理会告诉你,他们的很多工作,之所以能够向企业高管提供有用的信息,是因为他们使用了看起来似乎微不足道的数据可视化工具。 在分析应用程序中,数据可视化工具并不是一个龙套角色,他出现在分析的整个过程中,在分析的每个角色中都有所体现。

从最初的数据探索,到预测模型的开发,以及分析报告生成,数据可视化技术和软件都是数据科学家……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

在高级分析应用程序中,数据可视化技术的核心作用是规划和开发预测模型以及展示分析结果。

预测建模和其他类型的高级分析背后,有着强大的软件支持,这些软件是专门为在大型数据集上运行复杂算法所设计的,如编程语言R和Python,以及分析工具如SAS和IBM SPSS。但是很多数据科学家和分析经理会告诉你,他们的很多工作,之所以能够向企业高管提供有用的信息,是因为他们使用了看起来似乎微不足道的数据可视化工具。

在分析应用程序中,数据可视化工具并不是一个龙套角色,他出现在分析的整个过程中,在分析的每个角色中都有所体现。从最初的数据探索,到预测模型的开发,以及分析报告生成,数据可视化技术和软件都是数据科学家工具包中必不可少的利器。没有了数据可视化工具,就像飞行员闭上眼睛开飞机一样,分析团队几乎不可能完成分析任务。

“数据可视化使我们的分析更为有效,”Daqing Zhao,Macys.com的高级分析主管说道,“人类的大脑理解能力有限。对于分析模式,视觉上的直观展示是无可替代的。”

对于这家总部位于旧金山的在线零售商Macy ' s Inc公司来说,其高级分析团队主要负责Macys.com网站的效果和特性。Zhao管理的数据科学家团队构建了推荐引擎,对每一个新页面的布局进行A / B测试,并帮助营销团队规划和执行具有针对性的邮件营销活动。他们运行机器学习和预测建模应用程序,这些程序需要各种各样的工具和方法,该过程的早期就已经用到了数据可视化技术。

Zhao 表示,事实上,他的团队开展的所有工作都涉及到了数据可视化。例如,分析师可能会抽取一些特定变量,绘制成图表,以便查看他们之间的关联。此外他们会利用图表进行基本的总结统计,诸如均值和平均中值,数据传播和标准偏差指标,以便了解数据范围。数据可视化非常直观,可以帮助他们将自己的注意力集中在构建分析模型上,而查看那些巨大的电子表格,就不像数据可视化这么方便了,Zhao说道。

软件“大杂烩”

一些分析师使用Tableau软件探索数据集,并实现数据可视化。还有一些人将可视化组件构建到更复杂的分析软件中,如SAS、R和H2O开源机器学习平台等。有些人甚至直接在Excel电子表格上实现数据可视化。“我们所使用的工具是不确定的,”Zhao表示,在一个高级分析环境中,无论数据科学家们习惯于哪种工具,你只需要支持这种工具就好了。BuildingIQ,一家分析服务提供商,主要帮助业主和设施管理公司预测和控制他们的能源使用,数据可视化对于BuildIQ来说,同样有助于缩小数据集,此外还可以指导分析师对预测模型和算法的开发。BuildingIQ公司成立于澳大利亚,现在位于美国加州。 该公司主要从热力设施,通风设施和空调(HVAC)系统中收集数据,确定能耗趋势;并定位建筑中可进行能耗调优的区域。该公司负责数据可视化描述的首席数据科学家Boris Savkovic认为,数据可视化是其分析流程的首要步骤。

Savkovic和他的团队使用Mathworks' MATLAB软件构建高级机器学习算法。算法考量的变量包括,历史能源使用数据,未来天气预报数据,功率计量读数,HVAC 压力传感器上的数据以及能源消耗数据等。一次处理所有这些数据并不现实,所以分析师在一开始就采用了一些简单的数据可视化技术。一般来说,他们会将一些变量输入到线状图中,以便进行指标跟踪。这样便于调查统计数据相关性,进而建立数据分析模型。

“可视化就像面包和黄油,Savkovic说道。“随着时间的推移,它将逐渐揭示相关模型,并有助于发现不同变量之间的模型。将一系列变量输入图表,有助于发现特定建筑中需要解决的问题。”

补充技术

随着大数据架构的崛起和商业化的机器学习技术的发展,预测分析程序在企业中正变得越来越普遍。因此,预测建模和数据可视化工具之间的关系越来越紧密。

TechTarget的一项调查显示,数据可视化是受访者在过去六个月中投入资金最多的商业智能和分析技术。今年8月下旬,2950名受访者中,43.5%的受访者表示最近在数据可视化投入过一定的资金。同时,预测分析排在所有被提及技术的第四位,20.7%受访者表示近期在其上有过资金投入。

然而,在未来12个月计划投资的榜单上,这两种技术并列榜首。预测分析以极小的优势领先,3980名受访者有38.3%选择了它,数据可视化所占比例则为37.8%(参见“Ties That Bind”)。这些结果与“BI and Big Data Analytics Market Landscape Study”的结果一致,该调研也由TechTarget发起。其在2015年末和2016年初调研了612位BI和分析专业人士。该研究的结果显示,数据可视化为企业投入资金最多的技术,而预测分析也受到了广泛的重视。

两种技术之间的关系不只是适用于分析规划阶段。数据可视化技术和工具还有助于预测模型的和“培训”的正确性。在这个分析过程的技术性阶段,数据科学家并不是在埋头敲代码。但括号和命令的确容易让人迷惑。因此,一副视觉上的图画抵得上一千行代码。

位于McLean,Va的银行和信用卡公司Capital One的数据科学家Brendan Herger表示,他正在使用数据可视化软件监控预测模型的数据,并进行相应测试。这可以帮助他判断一个模型是否按预期工作,以及确定其输出是否具有意义。Herger使用H2O来构建和运行模型,作为机器学习应用程序的一部分,他使用H2O来可视化数据流,H2O是一个基于网络的交互式用户界面,由供应商H2O.ai提供。

除了使用数据可视化给自己带来好处,Herger还把他的工作的结果分享给了Capital One数据科学团队的其他成员,这样他们也可以确认其所构建预测模型的有效性。“抽查并确保数据的正确性非常有用,”他说道。

广泛分析循环

使用预测模型的结果进行数据展示,才是数据可视化技术真正的用武之地,或者说,高级分析项目的成败也在此一举。如果数据科学家并不能够向公司高管和业务经理证明预测模型能够交付有价值的信息,改善内部决策和操作流程的话,对预测模型的支持就将不复存在,分析项目也会因此遭到弃用。

“你给企业高管进行数据展示,这才是数据可视化的关键”, ArcBest Technologies(货运和物流公司ArcBest Corp的子公司)负责商业洞见的分析师Brett Spicer,说道,“他们需要以他们所能理解的方式看到数据。”

目前,ArcBest有一个部署在生产环境的预测模型,用于其货运服务,为有意使用货运的客户与第三方货运公司取得联系,实现资源配置。Spicer表示,该模型,以R语言开发,它可以帮助ArcBest员工更有效的匹配货运公司的负载,这比他们之前手工完成的工作要有效的多。我们使用MicroStrategy的BI和分析软件,在嵌入式数据可视化的基础上实现了报表,这有助于在匹配过程中实现信息共享,他补充道。

同样的,在Macys.com,Zhao的分析团队使用数据可视化工具生成报告,为市场经理开展邮件营销和产品推广服务。他表示,可视化数据能够显示营销人员是否向客户推销了恰当的产品。这有助于实现向数据驱动型营销的转变,如果业务用户缺乏高级定量分析能力,有些业务活动将很难取得成功。

“可视化让数据能够展示给更多的受众,这有助于企业分析文化的发展,”Zhao说道。

为原始数据添加上下文

预测建模和分析项目中大部分被分析的数据只不过是1和0的集合。就其本身而言,数据就没有太多含义。它需要上下文,而数据可视化技术可以提供此类上下文。

Omega Point Research Inc是一家销售分析软件的公司,这些软件利用机器学习算法,根据一系列经济指标检查投资组合,以评估潜在的金融风险。该平台由Databricks分布式Spark处理引擎和Spark的MLlib机器学习库联合构建,它由一些在高能粒子物理方面有着丰富工作经验的博士开发,这些人都在瑞士欧洲核子研究中心的实验室工作。但对于Omer Cedar,Omega Point的联合创始人和首席执行官来说,相对于公司机器学习模型的技术水平,他更关心的是展示给投资者的可视化报告。

对于其客户,Omega Point 构建了一个仪表板,基于各种来源于全球前2000只股票市值所衡量出的经济指标,直观的比较他们的投资组合。该可视化使用D3.js开源可视化库和React,创建了一个JavaScript库来进行Facebook上的用户界面设计。

“我们对于可视化的重视程度不亚于对机器学习的重视程度,”Cedar表示,算法生成的分析数据,如果没有经过可视化处理,那其对于一般人来说几乎毫无用处。

作者

Ed Burns
Ed Burns

TechTarget网站编辑,重点关注商务智能、数据分析和数据可视化技术。

翻译

杨宏玉
杨宏玉

TechTarget特邀编辑。北京邮电大学计算机科学与技术专业硕士。熟悉软件开发流程,对系统管理,网络配置,数据库应用等方面有深入的理解和实践经验。现就职于IBM(中国)投资有限公司,从事IBM服务器相关软件的开发工作。业余时间喜欢游泳登山,爱健身,喜欢结交朋友。

相关推荐