当Lucene搜索遇到Hadoop：未知的未知

Hadoop生态系统以非常快的速度增加了搜索功能。既然Hadoop热潮要主要归功于开源，那么选择的技术就是开源Lucene搜索引擎。事实上，这很像是阔别已久的老朋友重聚：最开始，Apache Hadoop就是Apache Lucene项目的分支。

Hadoop与搜索工具的结合想来在情理之中。最近对使用Hadoop集群和NoSQL数据库管理非结构化和半结构化数据的关注之热，甚至盖过了文本检索技术领域取得的实质性进展。这些进展能够帮助Hadoop用户从串联进系统的大数据流中提取业务价值。

文本无处不在。因为业务用户已经习惯了通过在线谷歌搜索快速获得各种信息，所以他们很期待这种搜索能力。

如果使用美国前国防部长Donald Rumsfeld一种比较另类的说法“我们知道我们已经知道了”，那么谷歌搜索引擎可以说是“已知的已知”。另一方面，Hadoop应用上运行的搜索则有助于揭示“未知的未知”。这是Rumsfeldian创造出来的颇有禅意的一个词，意思是“我们还不知道我们不知道”。虽然这种表述有点别扭，但它在瞬息万变的业务分析中确实有所应用。

“未知”的意义

其实，在“已知的已知”和“未知的未知”之间还有一种状态，那就是“已知的未知”——即我们知道我们不知道。从商务智能和数据分析的角度来看，主流商务智能工具、关系型数据库和数据仓库已经稳固的应用了很多年。它们帮助最终用户解答业务操作方面的问题，这些问题往往是预定义的，并且是具体的。

但是现在很多组织都希望得到能够和更自由的分析方法结合的补充。这反过来要求供应商将Hadoop和Lucene搜索软件结合起来。

Hadoop系统一个巨大的潜在优势在于，它可以使组织先将大量数据集合起来，之后再考虑如何处理。通过搜索技术观察Hadoop数据，提供了一种多角度检查数据的方式，创造了发现可能被陈旧方法忽视的问题的机会。

市场调研和咨询公司Kusnetzky集团的创始人Dan Kusnetzky表示：“今天，部署大数据工具的意义在于，人们对于超前的问题，不再不懂装懂。而在使用传统的交易和业务系统的时候，人们知道他们存在什么问题。”

搜索Hadoop数据

他补充道，结果，企业需要改变他们管理和分类在Hadoop集群中“收集的大量数据”的方式，从而有效地分析信息。“现在，查询是基于你心里的问题进行的，你可以用便于查询的方式存储数据。不必再用基于特定关键查询的传统商务智能存储数据，那种存储方式已经没用了。”

在Hadoop产品上添加搜索已经是最近产品发展的大势所趋。例如，Cloudera公司这个月就发布了基于Lucene的搜索工具，可以在Hadoop分布上使用。

今年夏天，MapR技术有限公司开始在其同名产品Hadoop平台上分布Lucene衍生的搜索功能。LucidWorks是一家提供建于核心Lucene搜索引擎库及Apache Solr搜索服务器上的企业级搜索发展平台的公司，它已经和三个Hadoop发行版“专营公司”建立了联盟，分别是Cloudera、MapR和Hortonworks公司。

随着关于Donald Rumsfeld的纪录片《未知的已知》的发行，你会听到更多的关于他提出的“已知”和“未知”概念的讨论。同时，业务分析师、数据科学家和其他的分析专家会采用黑客的方法处理新的数据，以期将未知信息转变为可利用的已知信息。很多情况下，这都需要Hadoop和搜索工具的结合。

我们一直都在努力坚持原创.......请不要一声不吭，就悄悄拿走。

我原创，你原创，我们的内容世界才会更加精彩！

【所有原创内容版权均属TechTarget，欢迎大家转发分享。但未经授权，严禁任何媒体（平面媒体、网络媒体、自媒体等）以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号