文本分析的五大发展趋势

日期: 2012-07-17 作者:Nicole Laskowski翻译:沈宏 来源:TechTarget中国 英文

在过去一年中,文本分析刮起一股技术变革的旋风。 “大数据”、收购、社交媒体、知识整合、API和云服务都影响着文本分析的发展。

  在第八届文本分析峰会上,Alta Plana公司创始人Seth Grimes说:“文本分析领域以非常快速的步伐发展着,这项技术的应用是由社交活动和在线信息的爆炸性增长所驱动的。”

  虽然文本分析技术仍挣扎在超越文本的非结构化数据,或者是如何处理一个叙述而不是一串句子,但它已取得了很大进展。Grimes指出,人们对该领域某些方面的兴趣正在迅速增长。例如,数以万计的用户注册了斯坦福大学一门最新的网上课程自然语言处理,这是文本分析的核心技术之一。

  大数据

  Grimes说大数据的挑战是如何摆脱垃圾数据。

  “分析师Clay Shirky认为这不是信息过载,而是信息过滤失败,”Grimes引用互联网知名评论员的说法:“目前的挑战是要找出你需要的信息,过滤掉无用的信息。”

  但要找到相关资料仅仅是处理过程的第一部分;接下来,组织需要有能力对这些数据进行分析。

  “我们谈论信息孤岛已经有很多年了,”他说:“现在技术已经能够达到,并且动力更足。”

  Grimes指出,HPCC系统(一种由LexisNexis Risk Solutions开发的开源大数据技术)有办法做到这一点。该平台抽取来自不同系统的数据,其中可能包括结构化数据以及像文本之类的非结构化数据,捆绑在一起进行分析。

  尽管HPCC只提供了一个有限的非结构化数据分析能力,但它对于提取人名、地名、公司名以及其他无法利用的文字元素而言仍然足够先进。

  API、平台和云服务

  Grimes赞成使用API或平台来取代云服务,并把Radian6和QlikTech作为例子。他说,Radian6公司没有自身的文本分析工具,而是通过集成其他厂商的工具来提供这项功能。

  “最终用户可以只引入他们所需要的功能,忽略掉他们所不需要的,”他说:“作为一种商业模式,它是有吸引力的,因为他们无需花时间自己去开发这项功能。”

  QlikTech支持通过使用API从外部数据源提取信息,这类框架使得客户只使用和支付他们所需要的,这给了他们更多的灵活性和敏捷性。

  收购

  在过去的12个月中,发生了新一轮的收购活动:Oracle收购Endeca、HP收购Autonomy、IBM吞并Vivisimo以及Lexmark并购Isys。

  Endeca和Autonomy以不同数据源的混搭技术而著称,包括非结构化数据。Vivisimo和Isys以丰富的搜索技术而著称。

  “IBM的收购让他们的竞争力快速提升;也许你会觉得他们自己开发分析功能,”Grimes说:“但是他们没有这样做,而是选择了直接收购。”

  社交媒体

  Grimes说,虽然大厂商已经进入社交媒体分析市场,但到目前为止,他没有什么深刻印象。

  例如,SAP的Social Media Analytics其实上是NetBase公司的技术,该公司已同意转售和支持这项技术。Oracle公司在日前宣布,它已收购Collective Intellect公司,这是一家小型的社交媒体和文本挖掘分析公司。在收购之前,Oracle的社交媒体参与能力基本上就是没有分析能力的CRM。

  “大公司缺乏有效应对社交媒体挑战的灵活性和及时性,”他说:“这给很多小公司留出了创新空间。”

  知识的浓缩和整合

  知识的浓缩和整合要求对不同来源的数据进行转换和映射。Grimes说,这相当困难,因为数据质量问题经常被提及但很少被处理。

  完成知识浓缩和整合的方法之一是通过语义,Grimes将之描述为一项使用有意义的标识符来链接不同数据类型和来源的技术。

  以知识为基础的编译已经发生。例如,社交媒体网站Quora就某些主题和问题进行反复交换,IBM的超级计算机沃森,这背后也存在着一个巨大的知识库。

  同类的技术支持语义Web。Grimes说,这些天在谷歌搜索Vincent Van Gogh,会返回艺术家生平、作品图片和他的同时代人的信息。语义Web使用图形结构来捕捉连结到数据Web的本体信息。

  “这是一个协议、标准和功能的堆栈,它还没有完全实现,”Grimes说:“但对于文本分析世界将产生重大影响。事实上文本分析技术到达现在这一地步,它需要越来越走向标准。”

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

作者

Nicole Laskowski
Nicole Laskowski

Nicole Laskowski is a senior news writer for SearchCIO.com and SearchCIO-Midmarket.com. She covers CIO strategies for analytics, business intelligence and data management. Prior to joining TechTarget, she worked as the news editor for a community newspaper in Arlington, Mass., overseeing the news content of both the weekly print publication and the newspaper’s website. Nicole also has worked for two other community newspapers in Oregon and Michigan and brings 10 years of writing and editing expe

翻译

沈宏
沈宏

相关推荐