从数据源看大数据

要“饮”好大数据这杯酒,得回到源头上去看一看——数据源。

  时时连接在线的海量人和物产生了海量的数据,这就是大数据的基础与源头。

  大数据的价值首先要解决动态利用的问题。

  大数据很热,其概念和内涵解释不少,争论很多。

  目前主流的大数据定义比较偏技术化,一般大众难于理解。譬如维基百科关于“大数据”的定义:指一些使用现有数据库管理工具或传统数据处理应用很难处理的大型而复杂的数据集 。“现有数据库管理工具”就让很多人难以理解,“复杂的数据集”也让人对其价值摸不着头脑。另一个流行的关于大数据的 4V 特点(Volume、Velocity、Variety、Veracity)的描述,也只是个定性的说法。

  有句俗语叫“饮水思源”,要“饮”好大数据这杯酒,得回到源头上去看一看——数据源。

  如果单纯就一个“大”字,大数据早就存在,譬如世界上任何一个稍具规模的图书馆里存储的知识量,一个国家档案馆里的档案等等。可见这个“大”字不仅仅是“大”那么简单。

  源头究竟发生了什么变化?最近几年移动互联、社交网络、电子商务、物联网的快速发展,使得全球超过一半的人时时连接在线,商品的物流、空气的动态变化等等看得见看不见的也连接在线。时时连接在线的海量人和物产生了海量的数据,这就是大数据的基础与源头。

  这样的大数据跟以前的大数据究竟有何不同?

  首先是数据时时并发产生。图书馆里海量知识是静态的,顶多随着新增的书而增加。就在按下键盘的瞬间,互联网世界里又时时产生了大量的数据。

  二是开放的。哪里有网,数据就在哪里产生。只要有一个可接入互联网的端,不管这个端是 PC、手机,还是一个数据监测发射装置,就可时时产生数据。而图书馆是封闭的,其数据进来和出去都受控制。

  三是数据源在不断拓展,越来越多样化。Google 眼镜可以把眼里看到的变成数据,智能汽车可以把动态行驶过程变成数据,嵌入到生产设备里的物联网可以把生产过程和设备动态状况变成数据。对数据源的不断拓展不仅能带来采集设备的发展,而且可以通过控制新的数据源更好地控制数据的价值。从 Google 的策略就可见一斑,其在数据源头技术和产品上的布局(譬如可穿戴设备、Google 汽车、Google 街景等)显示其不仅要控制数据的计算(收索),还要控制数据的产生。当 Google 成为数据源、数据处理、数据利用一条龙的大数据之王时,那时的 Google 将更可怕。

  四是源头活水,动态利用。大数据时时在线使得其存储、计算、价值化都具有实时的特征。这与图书馆知识的静态利用大不同。实时性与海量对整个数据处理的系统与技术提出了更高的要求,这也是为什么流行的大数据概念往往从技术角度出发的原因。大数据要有价值首先要解决动态利用的问题,譬如你这一刻发现了我有奶粉需求,下一刻需求已变成了一顿美食。用好大数据就一定要动态利用,绝不是“一洗了之”的解决方案。