Pentaho 7.0更新:数据准备和分析两不误

日期:2016-11-10作者:Ed Burns翻译:冯昀晖来源:TechTarget中国 英文

【TechTarget中国原创】

Pentaho公司的软件定位一直是做整合数据集成和分析,不过在即将发布的7.0平台中,该公司提供了用于加速和提升数据准备流程的功能。

升级后的分析、集成、数据准备工具于11月发布,支持用户在处理和准备过程中的任何环节直观地检查数据。这样数据科学家、数据工程师和业务分析师都可以使用图表、图形和其它可视化组件来动态检查数据,发现并提前解决潜在的数据质量问题,而无需等到完成整个分析工作才能发现。

例如,他们可以看到整合两个表的数据结果对于支持准确分析来说,是否缺少了很多数值;或者在抽取、转换和加载(ETL)集成处理过程中应用回归分析技术检查是否产生错误信息。Pentaho 7.0还支持IT团队发布预定义数据源给业务用户,这样可以加速数据准备阶段的协作。

Pentaho公司表示,在运行过程中,通过准备流程以协作的方式可视化检查和评估数据,这样的功能可以缩短数据科学家和其它用户为分析用途准备数据的时间。当然,数据工程师不大可能会对数据质量问题创建流程(减少了错误概率)。(2015年日立集团有限公司收购了Pentaho公司)

Pentaho 7.0还提供了新功能,支持与Spark SQL集成,方便ETL开发人员和数据分析师在Apache Spark集群中使用标准SQL的变体查询数据。还有几种其它类似功能也是专为处理大数据环境的数据而设计,包括支持Kafka消息队列系统、Avro和Parquet文件格式。

David Menninger是Ventana研究公司的一名技术分析师,他说Pentaho的新功能混合了分析和数据准备两方面的工作,这可能意味着数据管理的一种发展趋势。

越来越多的企业都希望可以把数据准备和分析任务更紧密地整合到一起,这样整合过程就更能以自服务的形式完成。Menninger说:“自服务数据准备成为了流行趋势。实际上,它需要与分析过程紧密集成。”

现在,Menninger认为Pentaho公司走在了市场的前沿,但是他预计其它厂商会很快跟风,推出比较类似的功能。

Paxata公司就是这样一个自服务数据工具供应商,该公司才初创几年,致力于拓展软件实现更高级功能。规划增加的功能包括:引导客户做必要的数据转换;通过机器学习技术帮助用户在语义层面更好地理解数据。

Paxata公司位于美国加州Redwood市,该公司上个月迈出了第一步,发布了同名软件的更新版本,新版本利用了Paxata连接技术,可以从不同的Hadoop集群、NoSQL数据库和其它系统中抽取整合数据。Paxata公司首席产品官Nenshad Bardoliwalla表示,该公司计划以季度为周期增加更多功能,不过全面打造设想的平台还有很长的路要走。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

评论
查看更多评论

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

作者>更多

Ed Burns
Ed Burns

TechTarget网站编辑,重点关注商务智能、数据分析和数据可视化技术。

数据集成>更多

  • 选择合适的ETL工具 关键看什么?

    传统ETL工具仍然在数据集成市场占最大比例,Gartner公司在2016年数据集成工具魔法象限调研报告中发现,使用批处理任务处理大量数据集成的组织超过80%。

  • 云计算固然好 但挑战依然存在

    云计算的出现,让企业在投资IT和商业应用时,多了一种部署选择,不再仅限于本地部署。但云环境也经常会增加企业使用的系统的数量。

  • 2015 IDC全球商业智能及分析工具软件市场份额调查

    全球商业分析软件市场欣欣向荣,各大商业分析软件公司在收益及市场份额等方面竞争激烈。特别是12个市场细分部分收入增长较为明显。

  • Pentaho数据集成平台简介

    Pentaho数据集成平台可以帮助企业从整个企业数据源集成、融合并转换数据。该平台的ETL架构支持目标数据库,如数据仓库的建立和维护、数据集市和数据湖。

相关推荐

技术手册>更多

  • SQL Server 2005/2008数据建模开发者指南

    本篇文章主要介绍SQL Server数据存储的物理对象和原理,包括SQL Server 2005和2008里的物理数据存储、SQL Server 2008数据类型(即Datetime、字符串、自定义及等)、在SQL Server数据库中加强数据的完整性……

  • 零售行业BI应用案例集锦

    零售行业销售点(point of sale)多、数据类型复杂、渠道广泛、数据规模巨大,变革传统BI的需求更加强烈。在这本集锦中,我们介绍了可口可乐公司、无印良品、宜家家居和乐购百货的BI应用实践。

  • NoSQL数据库选型指南

    随着大数据时代的到来,越来越多的组织需要处理大量的网站流量、大数据和社交媒体数据等,人们对NoSQL的需求越来越旺盛,NoSQL数据库产品也越来越多。

  • 电子书:如何分析传感器数据

    到2020年,监控系统将不再是大数据的首要市场了。 根据Gartner分析,260亿个对象将会被连接到互联网, 超出全球范围的闭录电视摄像机数量的100倍。

TechTarget

最新资源
  • 安全
  • CIO
  • SOA
  • 数据库
  • 网络
  • 云计算