登陆注册
7133100000003

第3章 大数据,你还不知道的部分(1)

FB数据单元--信息导航图

数据是由什么组成的?一个数据单元有多大?怎样产生和传送?

这是我们首先要知道的基本问题。曾经有人把数据比喻成花粉,蜜蜂搬运花粉使果实得以产生。每一个花朵都是数据产生源,蜜蜂承担着数据搬运工的工作。我认为这个比喻非常恰当,但有更好的概括--数据就像人体的血红细胞,一个数据单元就是一组营养单元,由肝脏产生,输送到身体各处,供应器官的需要。

数据单元是信息传输的基本单位。特别是在网络中,一般的网络连接不会允许将任意大小的数据包进行传送,它有严格的规则,采用分组技术将一个数据分成若干个很小的数据包,并且给每一个小数据包都加上它的属性。这个属性是与传输有关的,包括源IP地址、目的IP地址、数据的长度等。

和血液一样,它有固定的目的地。所以,我们把一个这样的小数据包称作数据单元,也可以称为数据帧或帧。如此一来,数据信息流的特点就明确了,每次要传送的数据都是特点鲜明的“包裹”,它们的规格和封装方式都是相同的。这有利于数据传输的标准化,也简化了它的产生、加工、包装和传送方式,使得大规模应用数据成为了可能。

我们发现,任何一个数据组织都有它的既定体系。在这个体系中,可以划分为位、字符、数据元、记录、文件和数据库六个层级。前一个层级的数据元组合产生了后一个层级,最终实现了更大规模的数据集合。

在这六个层级中,“位”数据处于第一层,一般的用户不需要探究,但后面五个层级则需要我们掌握,因为它们是人们在输入和请求数据时要应用到的。

当不同的数据包或数据元素之间存在着特定关系(一种或很多种)时,它们就构成了数据结构,也就产生了“电脑存储和组织数据”的特定方式。人们认真选择的数据结构能够带来更高的运行或者存储效率。这时,检索和索引技术的需求就随之产生了。更好的技术可以让我们的检索更加高效。

我的朋友沙尼尔是一位任职于谷歌公司的大数据专家,他在去年出版的名为《数据算法与应用》的书中对于数据的性质这样解释:

“数据结构代表着一种联系,它是数据对象及存在于该对象的实例和构成该实例的数据元素之间的各种联系。同时,这些联系可以通过定义有关的函数给出并量化。”

数据对象又是什么呢?沙尼尔认为,一个数据对象是实例或者值的集合,而数据结构是抽象数据类型(ADT)的物理实现。他将一个数据结构的设计过程分成抽象层、数据结构层和实现层这三个层级。在这其中,抽象层是指抽象数据的类型层,它讨论的是数据的逻辑结构及其运算,数据结构层和实现层则更贴近于形象化和实用性,它们讨论的是一个数据结构的表示和在电脑中的存储细节以及这种运算的实现。

如果我们结合现实应用,将数据结构解剖开来,会看到什么?你立刻就会发现自己已经漂浮在数据王国的海洋之上,它们离你是如此之近,并时时刻刻与你的生活发生着关系。

●字符

当我们输入一个字符时(通过键盘或其他设备),系统会直接将字符译成某特定的编码系统中的一串位的组合。一个字符在电脑中占8位,即一个字节。这就是字符,也是一般而言数据的最基本单位。同时,电脑系统可以使用不只一种编码体制来处理字符。比如,某些系统将ASCII编码体制用于数据通信,而把EBCDIC编码体制用于数据的存储。广义上,我们在纸上写下一个汉字单词、一个阿拉伯数字,也可视作“数据”中的一个字符。

●数据元

数据元是数据的层次体系中最低一层的逻辑单位。我们为了形成一个逻辑单位,需要将若干位和若干的字节(字符)组合在一起。比如一句完整的话,一段完整的富有逻辑的代码,一个最小的信息流等。因此,数据元也可称作字段。它是泛指的,其中的数据项才是数据实体,比如一个完整的手机号是一个数据元,138或后面的数字按段分开,则是具有单独存在意义的数据项。

●记录

数据元以逻辑相关的形式组合在一起,就形成了一个数据记录。价值在这时候开始陡然提升。比如一条员工记录--编号、姓名、性别、职称、所属部门--包含了若干的数据元,它们之间有逻辑相关性,再加上辅助性的数据项,就构成了完整的记录。这是数据库中存取的最低一层的逻辑单位。

●文件

一个完整的文件是由信息和介质构成的,它是被命名的、存储在某种介质上的一组信息的集合体。比如一篇文章、一张唱片、一份合同,甚至于一本书,都可称为数据元件。一个文件在逻辑上可划分成若干的记录,那么文件就以记录序列的形式体现。文件与存储介质无关,介质的改变不会改变文件的性质和它的价值。

●数据库

数据库是最大的层级,它是一组有序数据的集合。在这组有序数据中,包含大量的文件--这些文件之间互相又具有逻辑相关性,并以某种检索价值被标注。根据不同的应用需求和不同的领域,人们有时也将数据库分成若干段,而不是唯一存在。数据库有备份,可以随时检索、整理和利用,也可以随时被有权限的人更改。

核心:整理、分析、预测、控制

“大数据”的核心并不是我们拥有了多少数据,而是我们拿数据去做了什么。如果只是堆积在某个地方,数据是毫无用处的。它的价值在于“使用性”,而不是数量和存储的地方。任何一种对数据的收集都与它最后的功能有关。如果不能体现出数据的功能,大数据的所有环节都是低效的,也是没有生命力的。

☆整理

整理有两个目的,一是将所有的数据归类,把它们放到该去的地方;二是利于我们检索,随时调取数据进行利用。这和我们整理书架的目的是一样的。面对同样的数据,不同的整理方法决定着我们的效果是好还是坏。

美国国会图书馆的检索工程更新很能说明“整理”的重要性。在国会图书馆,人们曾经经历过一段困难时期,因为信息量随着网络技术的发达不断暴涨,就连保存的推特(Twitter)信息(只是图书馆数据中很小的一部分)就达到了接近两千亿条,存储文件的体积更达到133TB。删除是不可能的,因为每一条信息都已经在这套社交网络中获得了读者的分享与转载--那么,如此庞大的数据应该如何整理?

技术团队需要想尽一切办法、穷尽所有智慧才能拿出切实可行的检索方案,让图书馆的用户可以方便地利用这些信息。也就是说,技术人员必须着手建立一套帮助研究人员(包括其他用户)快速访问社交平台数据的系统,因为随着网络工具和文化潮流的不断发展,人们都在趋向于电子阅读而不是来看纸质书。

从2000年开始,图书馆就启动了整理归档的工作--那时的难度较小,因为尚未接入社交网站,政府内部的系统储存的数据在一定时间内是静态的,增长速度较慢。虽然数据的总量也超过了300TB,但工作人员觉得:“总有一天可以整理清楚。”

然而,推特的出现令图书馆的归档工作陷入了痛苦的僵局。图书馆方面实在找不到合适的办法来保证信息易于搜索,在这个过程中还不能出现无法容忍的错误。如果继续使用旧的方式--磁带存储,那么仅查询一条2006年到2010年之间的推特信息可能就要耗费一天,如果查询期限再加上一年,所要的时间就要增加四倍。

国会图书馆的一位工作人员费舍尔说:“我们在庞大的数据面前感到头疼,整理成为了一个不可能完成的工作。如果无法把它们归类,这些数据就变成了包袱,需要它们的人检索不到,我们却又不得不保管它们。”

推特的信息之所以难于整理,一方面是由于它的数据量过于庞大,另一方面的原因则十分现实,因为每天都会有新数据不断地加入进来。就像我们的微博一样,每分钟都有大量的新信息产生,人们不断在发微博。所以,这种增长速度会不断地提升,要用传统方法把它整理好,几乎是不可能的。

此外,这类信息的种类也越来越多样,比如普通的推特信息、利用软件客户端发出的自动回复信息、手动回复信息、包含链接或者图片的数据等等。经常使用微博的人对此心知肚明。传统方法在新的数据更新特点面前,根本无从下手。

费舍尔说:“如何寻找解决方案?道路是曲折的。我们开始的时候考虑分布式及并行计算方案,但这两类系统实在太过昂贵。要想真正地实现搜索时间的显著降低,就需要构建起由数百台甚至几千台的服务器构成的庞大的基础设施。天!想想都不可能,这对于我们这种毫无商业收益的机构来说,成本实在太高了,一点也不符合实际。”

图书馆最后找到了大数据工程师。专家针对图书馆的具体情况,给出了一系列的实用方案。开源数据库工具Raik的创始人菲利普斯建议采取分类处理的方式,即利用一款工具处理数据存储、一款工具负责检索工作,另一款则用于回应查询请求,非常简单有效地完成了整理的工作,让海量的新信息与庞大的旧数据完美融合,也保证国会图书馆实现了数据库的更新换代。

在整理完成以后,数据的总量增加了几十倍(每时每刻仍在增加),检索速度反而比以前更快,甚至已经实现了检索结果瞬间到位。

☆分析

分析是指对于数据进行“有效分析”。数据往往规模巨大,成分复杂,且来源不一。尤其在大数据时代,数据往往同时具有四个特点,简称4个V:数据量(Volume)大、速度(Velocity)快、类型(Variety)杂、价值密度(Value)低。怎样在最短的时间内做出最有效的分析,就成了一项核心工作。

随着大数据时代的来临,大数据分析也紧跟着应运而生。而且,传统的数据分析也在与大数据分析进行融合。

目前人们对于数据的解决方法主要还是这几个方向:数据怎么做预处理?归档的文档怎么能够及时查询?如何使用你的挖掘和分析技术来看到视野范围内的全息的大数据内容?在海量数据面前,传统的分析方式是做不到的。

数据分析的弱点也是需要我们警惕和谨慎思考的。去年六月份,有一位投行的华人高管蔡先生找到我。他正在考虑是否要退出欧洲市场,因为经济形势太不景气了。他觉得将来一定会发生欧元危机,一旦危机爆发,公司就会陷入破产的困境。

没错,经济有可能低迷,这是一个潜在的事实。但是,我提醒蔡先生注意另一个事实,那就是这家投行在欧洲已有近五十年的经营史,树大根深,有了很庞大的市场,也有大量的老用户。假如这时退出欧洲,会不会让人们觉得这家投行一遇到风吹草动就弃械投降、根本不值得信任呢?

蔡先生恍然大悟,他马上决定不能清算公司在欧洲的业务,不管未来有什么危机都要坚持下去,即便在短期内付出巨大的代价,也在所不惜。在做出这个决策时,蔡先生并没有忽视那些经济层面的数据,在我的建议下,他采用了另一种不同的思维方式,在数据的考量中纳入了更多更全面的信息。在困境中做出正确决策的人和机构,往往能够赢得更多的尊敬,而这不是传统的数据分析可以捕捉到的。

蔡先生的故事在告诉我们数据分析的威力之外,也充分体现了数据分析的短处和局限。虽然人类的生活现在由收集数据的电脑在调控指挥,当人的大脑无法及时理解和判断情况时,数据也可以帮我们解读和分析它的意义,并且帮助我们弥补对于直觉、情感的过分依赖,减轻我们内心欲望对于理性的扭曲。但归根结底,数据并不能代替人的思考,只有明确数据的真实价值,才有助于我们摆脱对数据的完全依赖。

真正的大数据分析就是要帮我们搞明白数据的真实价值,它在研究大量数据的过程中寻找模式、相关性和其他的有用信息,来帮助人们和企业更好地适应变化,并且做出那些真正明智的决定。

在大数据的层面上,对海量数据有四个不同的方向和解决工具:1.技术上解决了廉价数据的问题;

2.几乎可以实时地对数据进行分析,而不会有任何滞后,保证了数据的实效性;

3.大数据的可视化和发现性,使得搜索与可视化成为热门应用,也让数据更加精确;

4.在设备层面,拥有了经过优化的一体机设备,使得数据制造和分析更加便捷,成本也更低。

即便拥有最好的技术,在对数据进行分析前,人们也应该先了解数据的真实含义--就像了解自己一样。如果你对于数据是陌生的,那么作为一个决策者来说,你对于自己的事业就是十分危险的。现在许多产品经理、设计师和高管在没有完全理解数据的真实含义的情况下,就直接根据数据来修改自己的产品设计、做出完全基于数字逻辑的决策,结果往往事与愿违,导致糟糕的结果。

☆预测

大数据技术就像一面细致入微的显微镜,不但能够收集和分析最不起眼的信息,而且能够基于这些信息之间的逻辑关系做出科学决策。就像我们可以根据人的表情与言词判断他接下来的行为、量度他内心的情感状态一样,预测功能在商业、经济乃至其他领域都有助于政府和企业管理者做出更多的理性决定,而不仅仅是依靠直觉和经验。

IBM公司的能源电力应用部门经理布兰德说:“我们运用大数据预测风电和太阳能,精确地预测来自太阳能和风能的电力产出,取得了很好的效果。这是一种前所未有的创新模式,将使能源电力行业解决可再生能源的间歇性缺陷。”

IBM公司开发了一种结合天气和电力预测的智能系统,提高了系统的可用性并优化了电网的性能。它是足够改变游戏规则的新发明,结合大数据分析和天气建模技术而成,是现在全世界最先进的能源电力解决方案,可以提高可再生能源的可预测性。

这项名为“HyRef”(混合可再生能源预测)的大数据预测技术,利用天气建模能力、先进的云成像技术和天空摄像头,接近实时地去跟踪云的移动,并且通过传感器来监测风速、温度和方向。通过精确的分析,能为风电企业提供未来30天的区域内的精准天气预测,或者未来15分钟的风力增量。这就使能源公司有条件将更多的可再生能源并入生产线,减少碳排放量,然后制造更多的清洁能源。

这种预测能力让我们的生产模式得到真正的升级,而且可以应用到其他领域,比如天然气、煤炭或其他传统行业。不仅在实体产业,非制造业的服务产业对于大数据预测的需求更盛,也有着更广阔的市场。例如,可以帮助企业和政府机构进行业务(服务)分析与预测,对工作量身定制,降低成本,事先应对危机;再比如,可以对房地产销售的价格走势进行预测,它的精确性远远超过传统的房地产分析师。我们每个人都将从中受益无穷。

☆控制

同类推荐
  • 博弈

    博弈

    生活艺术的表现需要把握细节细节虽小,却构成了生活的全部关注细节就是关注生活讲究细节就是讲究生活的质量和品位生活中总是有无数的烦恼困扰着你吗?你的他好像不如过去那样爱你了;工作了几年,升职却老也轮不到你;打拼这么久,小金库依然不见壮大;疲劳法力终日相伴,体重也随着年龄一同增长;揽镜自照,皱纹不知何时悄悄爬了了你的眼角……不要担心,现代女性应该注意的100个生活细节为你带来贴心的指导,替你的生活排忧解难。
  • 领导不可不知的经济学常识

    领导不可不知的经济学常识

    本书精选了十二个不同领域的经济学知识,加以深入浅出的分析和探讨,希望能够帮助领导者在工作中顺利地做出经济决策和选择,出色地领导所辖事业取得更大的成功,赢得下属的敬佩和上级的尊重。
  • 机会来自何处

    机会来自何处

    比尔·盖茨说:“一个优秀的员工,应该是一个积极主动去做事,积极主动去提高自身技能的人。这样的员工,不必依靠管理手段去触发他的主观能动性。” 在现代职场,过去那种听命行事的工作作风已不再受到重视,懂得积极主动工作的员工将备受青睐。在工作中,只要认定那是你要做的事,哪怕看上去是“不可能完成”的任务,都要敢于接受挑战,立刻采取行动,而不必等上司做出交待,只有这样,才能在竞争中不被淘汰。 现在对于许多领域的市场来说,激烈的竞争环境、越来越多的变数、紧张的商业节奏,都要求员工不能事事等上司交待。那些只依靠把上司交待的事情做好的员工,就好像站在危险的流沙上,迟早会被淘汰。
  • 如何创办学生小饭桌

    如何创办学生小饭桌

    本书系统介绍了创办学生小饭桌需要注意的事项,对如何经营好学生小饭桌有具体的指导作用。
  • 赚未来十年的钱

    赚未来十年的钱

    对于这个世界上无数投机生意人来说,经济的好坏从来不是问题。甚至于在经济衰退的历程中,商人可以谋取更大的好处,因为商人中的弱者比普通个人更容易倒下去,这个时候“沙滩”上除了尸体还有大量的私人物品无人看管。
热门推荐
  • 四小阴门

    四小阴门

    四门世代相传的古老职业,几代人光怪陆离的传奇人生。过阴山,闯尸岭,这一切的背后,到底暗藏着怎样不为人知秘密?探寻几大集凶之地,勇闯阴煞怪异的鬼林,恐怖离奇的遭遇,九死一生的经历,他们到底在寻找着什么?他们又能否成功?重重迷雾,步步惊心,这四小阴门,几大家族,又有什么不为人知的地方?
  • 复仇千金霸男追爱

    复仇千金霸男追爱

    刚从英国回来的她,纯真、可爱是个人见人爱的小萝莉,可是两天之后,爸爸的公司突然危机,幕后凶手究竟是谁?当遇上冷酷无情的他,是否又能过关,复仇呢?
  • 释门自镜录

    释门自镜录

    本书为公版书,为不受著作权法限制的作家、艺术家及其它人士发布的作品,供广大读者阅读交流。汇聚授权电子版权。
  • 阴山诡族

    阴山诡族

    诡族:一个可以将身体与蛊虫融合,催动诡蛊之术的神秘民族;却因千年的追杀惨遭灭族,仅存于世的传人避世隐居,却仍难逃宿命;为了查出幕后真凶,为诡族族人报血海深仇,他踏上了一条充满诡异而恐怖的不归路;肉尸鬼婴肆虐鬼耳朵山,鬼目蜚现身神秘洞穴,早已灭绝的人虱鱼再现江湖;当诡蛊之印再次开启;等待我们的,必将是黄泉之路;当杀戮降临,当鬼怪重生,江湖将不再是江湖......当夜幕降临,当鬼穴开启,阴山之主将再次回归......
  • 至尊龙师

    至尊龙师

    这是一个弱肉强食的世界,只有强者才拥有真正的生存资格。他带着一条龙灵穿越空间,却重生在一个战奴身上。谁说奴隶不可以翻身?踏着无尽的尸骨前行,以铁血手段告诉那些高高在上的大人物们,他们也只是蝼蚁般的存在。………………………………
  • 腹黑王爷:调戏帝王妃

    腹黑王爷:调戏帝王妃

    她颜笙,二十一世纪北京法院新上任的法官,因遭遇妹妹的毒手,掉下海里穿越执月皇朝。她是执月皇朝帝王的一位妃子,宴会相遇后遭遇六王爷的调戏!自此他就像橡皮糖一样甩不开了!他很腹黑,每次都让她非常无奈!她一心想要逃离皇宫,可是离了皇宫,他还是追来了。他用时间算计了她的心,最后却离她而去!自古江山美人,难两得!天下和她,他会选择谁?——————————————————她言:“你为什么要给我吃忘情草,忘了我们之前的事,那是因为你在利用我对不对?”他说:“这万里江山,其实都抵不过你的一颦一笑!我算计了这个天下,算计了一切!但是我对你真的不是算计!”
  • 太平天国十四年

    太平天国十四年

    《晚清微历史系列:太平天国十四年》主要内容包括:三个不第的年轻人、上帝和他在“小天堂”的儿女们、金田树大旗,塑造一座太平理想国的浮雕、永安城中不安宁、江南江北几战场、挂着十字架跳舞的天王和诸弟们、天京周边,剑拔弩张、太平天国不太平,天京城里杀杀杀、天国没有刹车,仍在奋斗、走向黄昏夕照的半壁天国、辉煌“小天堂”的幻灭、强弩之末,天京失陷后的继续等。
  • 天神攻略

    天神攻略

    沈延,一个再普通不过的便利店员,在某个风雪交加的夜晚,平凡的他,遇上一位绝对不平凡的女神,命运的车轮开始转动……这是一篇辉煌的史诗!这是一首激情的颂歌!天神与恶魔!神圣与邪恶!正法与非法!信任与背叛!热血将如沸油般燃烧,祭火洁净大地一切罪恶,万物生灵的挣扎,生命与死亡的徘徊,荣誉与鲜花的奉献……沈延:呸!谁在拿水泼我!迦梨:小样儿,打个游戏还能说梦话!又皮痒啦?沈延:……
  • 剑指至尊

    剑指至尊

    一指山河碎,一剑星辰落。元莲大陆,势力纷乱,家族,宗门,皇朝,各大势力争斗不休;种族林立,人族,妖族,魔族,兽族,各族斗争不断。看顾扬如何从一个废材突变成天才,成为妖孽一般的存在,在这个天才辈出的时代里,走出自己的路,书写属于自己的传奇。
  • 四签名(福尔摩斯探案全集)

    四签名(福尔摩斯探案全集)

    《福尔摩斯探案全集:四签名》是作者的成名作,是系列第二部长篇探案小说。作品以印度土兵叛乱的历史背景,通过人们对土王宝盒的拼死争逐,与华生和莫斯坦小姐追求纯真爱情视不义之财为阻隔来加以对照表现,揭露了人的财富欲的罪恶与虚无,把人带入纯净的境界,反映了一个深刻的人文题材,提出了令人值得深思的诸多社会问题,从侧面向读者提供了深广的人文思考空间。