更好的可扩展性 让语义技术逐步敲开了企业的大门

日期: 2017-01-10 作者:Jack Vaughan翻译:杨宏玉 来源:TechTarget中国 英文

Cambridge Semantics的 CTO Sean Martin 表示,更好的可扩展性可以带来更丰富的数据展示。扩展性的提升是当下企业对语义技术重拾兴趣的动力之一。 在图形数据领域,一些企业开始逐渐关注语义技术。语义方法有助于改进数据分析的关联方法,但使用者还必须克服一些障碍。

为了更好的了解图形数据领域的发展情况,TechTarget记者采访了语义技术领域的顶尖专家之一——Cambridge Semantics的首席技术官Sean Martin。Sean Martin曾在IBM从事过多年的相关技术研究工作,后来在2007年成立了Cambridge Semantics,以便进一步研究企业……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

Cambridge Semantics的 CTO Sean Martin 表示,更好的可扩展性可以带来更丰富的数据展示。扩展性的提升是当下企业对语义技术重拾兴趣的动力之一。

在图形数据领域,一些企业开始逐渐关注语义技术。语义方法有助于改进数据分析的关联方法,但使用者还必须克服一些障碍。为了更好的了解图形数据领域的发展情况,TechTarget记者采访了语义技术领域的顶尖专家之一——Cambridge Semantics的首席技术官Sean Martin。Sean Martin曾在IBM从事过多年的相关技术研究工作,后来在2007年成立了Cambridge Semantics,以便进一步研究企业领域图形数据和语义技术。

他表示,可扩展性一直是一个挑战,他一直在致力于提升可扩展性。他的公司去年发布了Anzo Smart Data Lake,基于内存大规模并行处理(MPP)图形数据库引擎。该产品来自于2015年Cambridge Semantic对SPARQL City的收购,其主要基于Netezza和ParAccel等技术。Anzo Smart Data Lake使用 Resource Description Framework/SPARQL标准来进行数据存储和查询。

图形和语义技术已经发展了很长的时间,但最近这两种技术似乎有联合的迹象。这是真的吗?

Sean Martin:语义标准在15年前或更久以前就出现了,但其一直被可扩展性掣肘。现在,图形技术取得了长足进步。大多数人一直希望使用图形技术进行在线事务处理。我们的重点一直在在线分析处理,使用图形技术进行分析。

阻止图形技术应用于分析的一直都是可扩展性问题。这些年曾数次有人表示攻克了这一难题,但问题都依然存在。在小规模数据集上,你可能会看到惊人的进步,但在企业这种大规模数据集上却发展缓慢。而现在,我们将查询技术和MPP技术应用到图形技术中。现在,大数据规模上的图形技术也取得了显而易见的进步。

从我们的视角来看,现在已经具备了应对数据仓库负载的能力,我们可以实现复杂的数据湖泊,图形是其中一个很大的元素。不过,我们看到一些人使用图形技术的同时,还使用其他技术来规避风险;如运用图形技术的同时,使用Hadoop类软件用于分析。

语义技术给企业带来了什么?它的意义是什么?

Sean Martin:你会看到更丰富的数据表示。人们目前面临的一个问题是,使用传统的工具集进行数据展示,其形式相当有限。对于当前的数据,这些数据展示方式已经不实用了。人们可以创建非常复杂的关系结构,但结构越丰富,数据类型越多,存储并查询这些数据就变得越复杂,你需要创建许多不同的表结构,围绕数据的实际存储,又会产生一系列的问题。因此,实际上,使用传统的工具,是无法简单且生动的对数据进行描述的。

今天企业使用的关系工具或表格工具也很难从文本中提取数据并完成丰富的数据表示。也许有时候通过一定的努力可以实现,但这是不切实际的。

同时,用户可能需要不同的数据切片。现在,对信息的多维抽取需求越来越多。

另一个问题是,人们不断地想从其他外部数据源中获取数据。这些都是现在语义技术要解决的问题。

许多技术现在已经逐渐成熟,你认为哪些因素有助于这些系统的成功?

Martin:现在有了一系列标准。OWL(Web Ontology Language),它是一种建模语言。它使得用户能够描述其希望看到的数据类型,并描述数据与其他实体的关系。

OWL的关键在于是它对数据的存储和查询是中立的。它可以作为一个数据存储的模板。这是一个开放的标准,有很多遵循OWL标准的工具。这是一个很好的共享模型。它被应用在不同的领域,例如在金融服务业使用的Financial Industry Business Ontology模型就遵循这一标准。

第二个技术是图形存储。但它多年来依然没有很好的可伸缩性。这就阻碍了语义技术的应用。特别是对于计算密集型和存储密集型的应用,如数据仓库和数据集市,超出了语义技术应用规模。但现在的一些新兴技术,包括内存技术,商业CPU核心,快速互连,云物联网,已经为语义技术的发展创造了良好的条件。

此外,还有一项技术,就是SPARQL,该技术是SQL应用到图形数据领域的关键因素。它是与远程数据库交换数据的标准协议,也是一种查询语言。它可以做任何SQL能为你做的事,在关系查询上,它具有更好的性能。它也更容易实现自动代码生成和用户界面构建。

所以,有了OWL,你就相当于有了一把万用钥匙,无需专门学习SPARQL,你就可以轻松使用它。

我认为“关系”对于图形数据库来说同样有好处,您觉得呢?

Martin:正如我的一个同事也指出,在关系数据库中,当你考虑关系时,你必须明确地知道数据是如何关联的,而使用SPARQL,你可以做一个查询,给出条件“给我所有的一切与此相关的东西”它将为你列出所有相关数据。而在关系技术中,你实现必须知道所有的关联方式,然后根据每个关联进行单独的查询。

作者

Jack Vaughan
Jack Vaughan

TechTarget新闻记者和网站编辑,主要关注数据管理领域的技术趋势和动态。

翻译

杨宏玉
杨宏玉

TechTarget特邀编辑。北京邮电大学计算机科学与技术专业硕士。熟悉软件开发流程,对系统管理,网络配置,数据库应用等方面有深入的理解和实践经验。现就职于IBM(中国)投资有限公司,从事IBM服务器相关软件的开发工作。业余时间喜欢游泳登山,爱健身,喜欢结交朋友。

相关推荐