大数据的那些事
编者按:要说2014年越来越火的几个词,大数据毋庸置疑的可以排在前三位,管理大师戴明与德鲁克曾有过“不会量化就无法管理”的经典理念,这一理念足以解释近年来的数字大爆炸为何无比重要。简而言之,有了大数据,管理者和经营者可以将一切量化,从而对企业的信息及业务尽在掌握,进而提升决策质量和业绩表现,大数据的预测价值无比重要。
何为大数据
很多时候,大家在谈论大数据的时候都会思考这个数据会被称之为“大”数据,要想明白这个问题,还要从四个方面来细细的说一说:
规模:大数据又被称为巨量资料,所谓巨量,2010年一年互联网产生的数据量就已经远大于1946年计算机出现到2000年所产生的所有数据量。以前我们谈论数据的存储时候,用的都是MB、GB,但我们现在谈论数据量动辄都是EB(艾字节)、ZB(泽字节)。(1024GB=1TB、1024Tb=1PB、1024PB=1EB、1024EB=1ZB)
速度:仅就2012年来说,每天大约产生2.5艾字节的数据,而且这个数据量现在每40个月就会翻一倍。对于很多应用来说,数据生成的速度比数据规模更显得至关重要。越为实时的数据,越让企业能够灵活自如。比如现在的打车软件,实时的客户需求才是最为关键,若有大量的延迟,出租车永远跟不上客户的打车节奏,那这款软件必然会被迅速淘汰。所谓“天下武功,唯快不破”正是这个道理。
种类:自人类发明计算机以后,数据的种类越发多样,而大数据的范畴已经含盖了我们生活的每一个角落。大的方面如农业、气象、交通等方面自然不必多说,小的方面如网上购物信息、百度搜索历史、开车踩油门的力度等等都会被详细的存储下来。社交网站上发布的信息、更新、图片;传感器显示的内容;手机上的GPS信号等等。从智能手机到网络社交,都正是大数据的几种全新来源。
价值:传统的数据并没有什么价值,数据库中虽然存储着海量数据,却很难被人们加工处理。随着IT技术的发展,人们渐渐意识到了数据的重要性,尝试着从中去获取一些需要的内容。如果没有加工处理,1TB的数据永远仅仅只是1TB的数据,但有了大数据应用处理及开发,这1TB的数据为企业带来的指引价值必将远远大于1T存储设备的价值。
很多人在谈及大数据的时候,总会说到“统计学的好的人都说自己玩的是大数据”、或者说“大数据和传统报表没什么大的区别”,但其实,大数据与统计和传统报表间有着非常大的区别。
传统的事实分析,多采用相对静态的趋势外延的方法,很大程度上是根据经验认知来表明信息的小数据,多用来表达之前发生的事情,比如我们常见的“2014年企业利润表”、“2013年团队费用开支表”等。如果想用这些小数据来推演事物规律,预测发展情况,常会因为技术手段的匮乏或者是数据量过小导致并不准确。所以在统计与传统报表阶段,多是以经验和主观认知为主,就是说话算数的领导层认为该如何去做,那就如何去做。
这里借用建行首席经济学家黄志凌讲的的一个事例,我们现在非常迫切的想预测地震的发生。传统的方法是收集地震发生之前的地表地底各项结构化数据,全面揭示地震形成时的地理变化规律,从而进行预测,但这样的可行性并不高,现在全世界最先进的地震预测机构通过这种传统方法也仅仅能够提前20秒知晓地震的到来,在实际生活中,如此短的时间对于我们防震求生用处微乎其微。这时候我们就需要借助动物的反常行为,收集这类非结构化数据,比如家里的猫狗突然变得急躁不安、鱼缸里的鱼不停的浮上水面,我们经常可以看到有人记录下来的动物在地震前半小时就状态连连,很多人都因为这些异常反应而成功逃生。通过收集地理数据来分析地震来临的可能性,我们称它为结构化预测,难度大而且预测较难。通过动物的反常行为来寻找规律,我们称它为相关性预测,难度小、预测较容易。简单地说:
统计、报表→结构化数据→结构化预测。重点在于表内数据的公式推导。
大数据分析→非结构化数据→相关性预测。重点在于表外数据之间的关联性。
以前对于数据,无法做到全量数据高效的收集、储存、分析,因为存储设备费用太高,但随着IT技术的发展,用来计算数据的所有相关设备——存储器、内存、处理器、带宽等等的成本在持续的大幅度降低。互联网的高效应用也解决了动态记录与实施反馈的问题,越来越多的商业行为正在趋向数字化,加之全新的信息源与更便宜的设备,也将我们被这一切带入了一个新纪元。海量数据一个接一个的被记录,我们现在每一个人都成为了一个随时随地的数字生成器,这些数据大都是非结构化的,没有整理过的话,就只能如一团乱麻一样的躺在数据库中。但好在大数据所带来的相关性分析一点一点的开始普及,数据分析更为深入、更为准确、更为及时、更为前瞻,我们发现这些非结构化的大数据能为我们带来无数意想不到的结果。而这时我们也才明白,相对于传统的统计和报表,它们未来正在于此。
大数据的核心价值
如果要说大数据最核心的价值,那就在于它全面、理性的预测能力!
● 全面
“尿布与啤酒”的故事是关于大数据最经典和流传最广的故事。总部位于美国阿肯色州的世界著名商业零售连锁企业沃尔玛拥有世界上最大的超市业数据仓库系统。为了能够准确了解顾客在其门店的购买习惯,沃尔玛对顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,一个意外的发现是:跟尿布一起购买最多的商品竟是啤酒!那么这个结果符合现实情况吗?是否是一个有用的知识?是否有利用价值?于是,沃尔玛派出市场调查人员和数据分析师对这一结果进行调查分析。经过大量实际调查和分析,揭示了一种隐藏在"尿布与啤酒"背后的美国人的行为模式:美国的妇女通常都在家里带小孩,所以他们经常嘱咐丈夫在下班的路上给孩子买尿不湿,而丈夫同时会给自己买两罐喜爱的啤酒。既然尿布与啤酒一起被购买的机会很多,那么沃尔玛就在其众多门店将尿布与啤酒并排摆放在一起,结果是两样产品的销售量双双增长。这著名的购物篮数据分析事件为大家带来的思路可不仅仅是超市里面物品陈设的学问那么简单,而更多的是大数据方面的启迪之笔。
接下来我们来看一个关于GOOGLE的故事,2009甲型H1N1流感肆虐全球,全球的卫生机构都担心一场致命的流行病即将来袭。糟糕的是,还没有机构研发出对抗这种新型流感病毒的疫苗。医生能做到的只是减慢它的传播速度,但要做到这一点,人们必须要先知道这种流感要出现在哪里。美国政府下令要求医生要对病情及时告知疾控中心,但由于欧美国家独特的家庭医生体制、人们可能患病多日实在受不了才去医院的情况、以及信息传回疾控中心的汇总发布时间,多重的问题导致疾控中心所播报的疫情永远落后于实际情况7天左右。这种滞后导致卫生机构在疫情爆发的关键时刻反而无所适从,他们不知道要往哪里提前派驻医生和资料资源,只能被疫情牵着鼻子走。
在甲型H1N1爆发前的几周,互联网巨头GOOGLE的工程师们发表了一篇引人注目的论文,它令所有卫生方面的官员和计算机科学家们感到震惊,文中解释了谷歌何以预测冬季流感的传播,通过观察人们在网上的搜索记录来完成这个预测。谷歌把5000万条美国人最频繁的类似于“感冒了吃什么药”、“发烧多少度是感冒”这样的词条搜索分布情况,与美国疾控中心2003年到2008年季节性流感传播情况的数据做对比,总共处理了4.5亿个不同的数学模型,最终找到了特定检索词条的使用频率与流感在时间和空间上的传播关系。将预测结果与2007、2008年疾控中心记录的流感情况做了详细比对后发现,他们的预测结果和官方数据相关性高达97%。和疾控中心一样,GOOGLE也可以知道流感从哪里传播出来,判断准确且时效性更高,最重要的是,他们不需要出动医生、也不用一个体温计。
所以,2009年甲型H1N1爆发的时候,与结构性的滞后的官方数据相比,谷歌成了一个更有效、更及时的指示标,卫生机构通过谷歌获得了非常重要的信息。更重要的是,这是建立在大数据基础之上的一种前所未有的相关性预测体系。
继续来看,航空业也有大数据的经典之作。航空业讲究分秒必争,尤其是航班抵达目的地的准确时间,如若一班飞机提前到达,地勤人员还没有做好充足的准备,那么乘客、乘务员就会在飞机上不能起飞白白浪费时间;如若飞机延误,那地勤人员就只能干等着,浪费大量的人力物力。在之前,惯例是由一名飞机上的飞行员提供航班的预计抵达时间,飞机员在飞机临近机场时向机场告知,但在这个预测的过程中还有很多事情可能干扰到飞行员的注意力,比如突如其来的侧旋气流等等,因此抵达时间的准确率一直有待提高,2000年时,一家大航空公司的内部报告里面写着大约42%的航班都无法按照预测的时间到达。这时,一家专门做航空决策支持的技术公司PASSUR通过搜集天气、航班日程表等公开数据,结合自己独立收集的其他影响航班因素的非公开数据,于2001年开始对外提供准确预测航班时间的服务。时至2012年,PASSUR的接收站每4.6秒就会接收并更新一次所追踪航班的飞行数据,而且公司已经拥有了一个超过十年的历史信息载体,为透彻的分析和恰当的数据指标及模型提供了工作可能。这项服务的工作核心就在于利用大数据告诉航空公司“飞机究竟何时着陆?“。
使用这项服务后,这家航空公司大大缩短了预测和实际抵达之间的时间差距。据计算,该项服务能为他们的每个机场每年节省数百万美元。大数据带来更准的预测,更准的预测带来更佳的决策。
大数据的全面体现在不同的角落,无论是刚才说的零售、医疗还是航空,还是像金融、旅游、博彩、机械制造,乃至市场营销、人力资源管理也有着极大的效用。在这个大数据开始全面包围我们方方面面的时代,没有谁能置身事外。
● 理性
我有个朋友,毕业以后就一直在一家金融服务公司工作,通过为客户提供高质量的金融方案研究报告、达成委托交易等来获得收益。那时他们公司一共有几百家客户,其中最大的一户是一家基金公司。他们公司派了专项研究员到各地出差,与基金公司的分析师和项目经理们沟通,并投入了大量的资金保证委托交易通畅,并且还要讨这家基金公司的欢心,总是害怕丢了这家公司,丢失了他们最大的客户。
有一天,朋友的领导交给他一个项目,就是深入的了解每一个客户的盈利能力,估算每一个客户的成本和收益率。在这个项目快结束的时候,他们得到的结果让人震惊并且违反常识:最大的客户,带给他们公司的反而是最低的盈利贡献度,而中层客户比极力讨好的大客户反而让他们赚的更多,因为中层客户并不需要他们付出那么多的人力和财力资源。
为何会有这样的问题?其实他们犯了一个很多公司和企业都会犯的普遍性错误,那就是选取指标不够理性。绝大多数时候,我们对业绩进行评估,多是基于销售收入的,与我们的最终目标严重脱节。所以企业的人力财力配置与利润最大化目标并不相符,进而降低了企业的整体业绩。
《点球成金》是一部以迈克尔·刘易斯的畅销书改编而成的以职业棒球为题材的体育电影,但是它的主人公并非是棒球明星,也不是他们的教练,而是奥克兰运动家队的总经理比利·比恩。当时的球队属于整个联盟末尾的球队,他也只有极少的资金去运营这家球队,要与数倍于他投资的的对手在大联盟棒球赛中一决高下,他面临着各种困境,球队老板不愿意提供更多的资金支持;优秀球员因为无法支付高薪而流失;球探的团队用一成不变的方式寻找替补队员;由此,他不得不变换视角。
当时的美国棒球联盟,采用球探发现来寻找球员。这些球探挑选球员靠的是眼力,他们评估的办法主要是看球员得分、传球、防守、击球的能力。很多球探一辈子都在从事棒球运动事业,对球员的潜力及发展有着很准确的直觉。但是靠直觉判断的衡量标准,因为不考虑球员在场上的位置因素,所以很可能与数据分析的结果大相径庭。
过去,球队经理和球探在得分能力上大多只关注一个基本的数值——平均击打率。做了适当地数据统计分析后,比利·比恩发现其实球员的上垒能力比击球率更重要。但上垒率长时间以来一直是被大家低估的因素,所以奥克兰运动队寻找上垒率高的球员时,不再像以前那样关注打击率,这就让球探的经验和眼力判断变得不那么重要,因为高上垒率低击打率的球员往往无人问津,这样使得球队也不用花大价钱就能找到非常适合的球员。
比利·比恩在质疑声中重新编制了这支残缺不堪的球队,在新赛季中用这支备受质疑的球队创造了联盟中20连胜的伟大壮举,虽然在季后赛中距离总冠军一步之遥,但是球队的成绩也创造了历史。比利·比恩用自己的方法证明了选取合适的指标,往往是理性分析最重要的一步。老派球探对这个行业有着天然的直觉,但他们没有意识到,他们所自信的直觉可能是错的,个人认知的偏见可能会导致决定的偏差,而这是不理性的分析方法。大数据分析讲求理性预测,往往要杜绝个人认知上的几个问题:
过于自信:人们在判断事物的能力,往往自信的与事实不符,比如绝大多数人都认为自己的驾驶技术出神入化、比如绝大多数人认为飞机票永远比火车票贵。某连锁快餐店发现销售能力与顾客满意度密切相关,高管们认为员工流失率低会让顾客满意度提高,处于对自身的高度自信,高管们开始着力提升企业的人文关怀、员工归属感,降低员工的流失率。一年之后,企业做了专项的数据调查,发现结果与他们认为的结果大相径庭:一些员工流失率低的门店销售反而远不如一些员工流失率高的门店,因为员工觉得保障很多,失去了很大的工作积极性,而真正与客户满意度相关的指标是门店的经理流失率。良好的管理层稳定性,既能提高顾客满意度也提高了销售能力。一次全面透彻的大数据分析调查真正能告诉你应该在何处自信。
显而易见:人们在找寻事物的原因时,经常依赖于那些看似理所当然的因果关系,这种方法的根本是把我们记忆中的“相似情况”当作显而易见的根据,但实际上这个显而易见并不具有参考价值。比如我们在购买飞机票时,总是主观的认为提前购买的时间越早,机票的价格越便宜。但实际上,时间早晚仅仅是机票价格的一个小因素,并不具有参考性。很多时候你会发现比你买的迟的人也有大把大把的比你便宜的情况发生,著名计算机科学家埃齐奥尼的FareCast机票价格预测系统就从大数据的角度为我们全面揭示了这一情况。
墨守成规:大多数人往往都愿意墨守成规而避免因变化带来的风险,因为事先设定好了一条可以避免损失的路径,即使变革可能会带来更大的收益,人们也不愿意更改先前的策略。
一家电信服务商在刚进入市场时重点关注新客户的引入,用简洁的宣传语和较低的入网费吸引了大批客户,随着时间的推移,客户积累到一定程度后,企业其实应该将重心放到维护现有客户中去,因为老客户相对而言消费更高。但企业害怕市场策略的改变降低了企业的竞争力,仍一心放在新客户上,结果就造成了高入网率高退网率的尴尬处境,一直无法成为产业的核心企业。
我们应该善意的接受从统计学和传统报表到大数据的思维转变方式,在一定程度上和传统的企业顾问说不,因为此时,我们需要的是大数据的合理分析与指引,理性的告知,哪条路是最正确的,是最值得我们向前走的。
2015贵阳国际大数据产业博览会26日开幕,国务院副总理马凯建议抓住重大机遇,加快构建以数据为核心的大数据产业链,发展云计算、数据中心、呼叫中心、数据加工等新业务,推进数据的商品化,促进大数据产业发展壮大,充分挖掘大数据的商业价值。(宁夏区分行朱子奕)
关于未来
古语云:三分技术,七分数据,得数据者得天下。先不论谁说的,但是这句话的正确性已经不用去论证了。维克托·迈尔-舍恩伯格在《大数据时代》一书中举了百般例证,都是为了说明一个道理:在大数据时代已经到来的时候要用大数据思维去发掘大数据的潜在价值。书中,作者提及最多的是Google如何利用人们的搜索记录挖掘数据二次利用价值,比如预测某地流感爆发的趋势;Amazon如何利用用户的购买和浏览历史数据进行有针对性的书籍购买推荐,以此有效提升销售量;Farecast如何利用过去十年所有的航线机票价格打折数据,来预测用户购买机票的时机是否合适。
那么,什么是大数据思维?维克托·迈尔-舍恩伯格认为,1-需要全部数据样本而不是抽样;2-关注效率而不是精确度;3-关注相关性而不是因果关系。
不管大数据的核心价值是不是预测,但是基于大数据形成决策的模式已经为不少的企业带来了盈利和声誉。
从大数据的价值链条来分析,存在三种模式:
1-手握大数据,但是没有利用好;比较典型的是金融机构,电信行业,政府机构等;2-没有数据,但是知道如何帮助有数据的人利用它;比较典型的是IT咨询和服务企业,比如,埃森哲,IBM,Oracle等;3-既有数据,又有大数据思维;比较典型的是Google,Amazon,Mastercard等。
未来在大数据领域最具有价值的是两种事物:1-拥有大数据思维的人,这种人可以将大数据的潜在价值转化为实际利益;2-还未有被大数据触及过的业务领域。这些是还未被挖掘的油井,金矿,是所谓的蓝海。