当Lucene搜索遇到Hadoop:未知的未知

日期: 2013-09-24 作者:Jack Vaughan翻译:陈洪钰 来源:TechTarget中国 英文

Hadoop生态系统以非常快的速度增加了搜索功能。既然Hadoop热潮要主要归功于开源,那么选择的技术就是开源Lucene搜索引擎。事实上,这很像是阔别已久的老朋友重聚:最开始,Apache Hadoop就是Apache Lucene项目的分支。

Hadoop与搜索工具的结合想来在情理之中。最近对使用Hadoop集群和NoSQL数据库管理非结构化和半结构化数据的关注之热,甚至盖过了文本检索技术领域取得的实质性进展。这些进展能够帮助Hadoop用户从串联进系统的大数据流中提取业务价值。

文本无处不在。因为业务用户已经习惯了通过在线谷歌搜索快速获得各种信息,所以他们很期待这种搜索能力。

如果使用美国前国防部长Donald Rumsfeld一种比较另类的说法“我们知道我们已经知道了”,那么谷歌搜索引擎可以说是“已知的已知”。另一方面,Hadoop应用上运行的搜索则有助于揭示“未知的未知”。这是Rumsfeldian创造出来的颇有禅意的一个词,意思是“我们还不知道我们不知道”。虽然这种表述有点别扭,但它在瞬息万变的业务分析中确实有所应用。

“未知”的意义

其实,在“已知的已知”和“未知的未知”之间还有一种状态,那就是“已知的未知”——即我们知道我们不知道。从商务智能和数据分析的角度来看,主流商务智能工具、关系型数据库和数据仓库已经稳固的应用了很多年。它们帮助最终用户解答业务操作方面的问题,这些问题往往是预定义的,并且是具体的。

但是现在很多组织都希望得到能够和更自由的分析方法结合的补充。这反过来要求供应商将Hadoop和Lucene搜索软件结合起来。

Hadoop系统一个巨大的潜在优势在于,它可以使组织先将大量数据集合起来,之后再考虑如何处理。通过搜索技术观察Hadoop数据,提供了一种多角度检查数据的方式,创造了发现可能被陈旧方法忽视的问题的机会。

市场调研和咨询公司Kusnetzky集团的创始人Dan Kusnetzky表示:“今天,部署大数据工具的意义在于,人们对于超前的问题,不再不懂装懂。而在使用传统的交易和业务系统的时候,人们知道他们存在什么问题。”

搜索Hadoop数据

他补充道,结果,企业需要改变他们管理和分类在Hadoop集群中“收集的大量数据”的方式,从而有效地分析信息。“现在,查询是基于你心里的问题进行的,你可以用便于查询的方式存储数据。不必再用基于特定关键查询的传统商务智能存储数据,那种存储方式已经没用了。”

在Hadoop产品上添加搜索已经是最近产品发展的大势所趋。例如,Cloudera公司这个月就发布了基于Lucene的搜索工具,可以在Hadoop分布上使用。

今年夏天,MapR技术有限公司开始在其同名产品Hadoop平台上分布Lucene衍生的搜索功能。LucidWorks是一家提供建于核心Lucene搜索引擎库及Apache Solr搜索服务器上的企业级搜索发展平台的公司,它已经和三个Hadoop发行版“专营公司”建立了联盟,分别是Cloudera、MapR和Hortonworks公司。

随着关于Donald Rumsfeld的纪录片《未知的已知》的发行,你会听到更多的关于他提出的“已知”和“未知”概念的讨论。同时,业务分析师、数据科学家和其他的分析专家会采用黑客的方法处理新的数据,以期将未知信息转变为可利用的已知信息。很多情况下,这都需要Hadoop和搜索工具的结合。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

作者

Jack Vaughan
Jack Vaughan

TechTarget新闻记者和网站编辑,主要关注数据管理领域的技术趋势和动态。

相关推荐