我遇到一群能“预测未来”的人

我遇到一群能“预测未来”的人
2020年06月02日 19:37 亿欧

(一)从“数据纪元”到“大数据纪元” 

上面这张图,是土星五号。

这个36层楼高、3000吨的怪物,是人类史上最大的运载火箭之一。它曾经9次把宇航员送上月球。

1962年在赖斯大学体育场上宣布登月计划时,肯尼迪曾说了这样一句话:我们选择登月,并非因为它简单,而恰恰因为它困难重重。

肯尼迪所说的“重重困难”中,有一股鲜为人知的“暗流”:

一枚土星五号有200万个零件,而为了精确追踪每一颗零件的制造过程,NASA 需要管理一个巨型的表单。为此,IBM、北美航空、卡特彼勒联合为 NASA 开发了一套数据管理系统 IMS。

于是,人类一不留神手造了一个新物种——“数据库”

正是依靠数据库在十几年间精准的记录和有条不紊的调度,才最终把“登月”这项壮举从纸上谈兵变成钢铁现实。

从那一刻起,没有人能阻止这颗种子萌芽。潦倒的程序员拉里·埃里森写出了 Oracle 商用数据库,IBM 推出了 DB2。此后,银行、券商、酒店、航空、连锁超市各行各业里每一个顾客的订单、每一个账户里的每一分钱都交由数据库保管。

自此,我们这个物种进入了“数据纪元”。

时间来到1983年,大洋彼岸的中国。

这一年,阿尔文·托夫勒撰写的《第三次浪潮》由三联出版社第一次译成中文出版。这本书在中国狂销1000万册,被后世追认为“先知启示录”。书里所说的第三次浪潮,正是后来出现的“互联网”。

预言互联网的到来已经够神了,而托夫勒更是喊出了一句彼时无人能懂,但现在看来不要太牛X的“神谕”:大数据将是第三次浪潮中的华彩乐章。

啥意思?也就是说,如果把互联网比作一段摇滚乐,那么大数据就是吉他手“嗞儿~~”一声之后疯狂的动次打次。。。

大数据有这么神么?很可能有。如果让中哥只用一句话展现大数据的神奇之处,我会这样说:

把大规模的数据放在一起分析,就可以在某种程度上预测未来。

怎么预测未来呢?别急,下一章里中哥掰开揉碎告诉你,我们先看故事。

1995年夏天,一个毛头小伙子走进了昆明理工大学。报到通知书上写着他的名字:甘云锋。

他脸上并没有太多喜悦,高考没有发挥好,专业是调剂的“测绘工程”,并不喜欢。但他却是个倔小孩,喜欢就是喜欢,不喜欢就是不喜欢,打死也不喜欢。整个大学时光,他喜提20多门重修,“退学警告”像病危通知一样一道道送到他手里。

可是他的恨分明,爱也分明。在所有课程里他唯独爱一样:计算机。而在计算机里,他又偏偏痴迷普通人敬而远之的硬核技能:数据库。

那时候的计算机内存小得可怜,编程的时候连字库都不能全载入进去,经常要用汇编语言辗转腾挪,用到哪些字就提取哪些字。能用数据操控一切的感觉,简直太神奇了。

回忆往昔,甘云锋嘴角上扬。

甘云锋(风剑)

仿佛上天安排,甘云锋在学校图书馆翻到了那本《第三次浪潮》,看到“大数据”三个字,一道闪电咔嚓一下从他额头劈过。“砰!”他把书合上,周围人都抬头侧目,看着这位神神叨叨的同学眼里烁烁放光。几秒种后,同学们纷纷回到了自己的世界里,可是甘云锋却永远留在了未来。

甘云锋并不孤单,神州大地上,无数英雄和他一样强烈地接收到了《第三次浪潮》的感召。

1998年,马云成立了阿里巴巴,1999年,马化腾成立了腾讯,2000年,李彦宏成立了百度。灯光如炬,那些亮暗分明的面孔登上舞台。一场有关大数据的磅礴史诗,就此奔腾开去。

(二)能“预测未来”的神器  

刚才中哥还欠你一个解释:大数据怎么预测未来?

空口无凭,举个栗子。

2016年,红遍大江南北的《我是歌手》开始了第四季,湖南卫视的领导辗转找到了时任阿里云总裁胡晓明:“都说大数据可以预测未来,你们能不能用大数据预测一下《我是歌手》的冠军?”

这个剑走偏锋的重任,猛然落在阿里巴巴的一群数据老司机头上。

他们赶紧跑去各大音乐平台收集数据,包括各位歌手歌曲被播放的次数,被评论的次数,评论中的情感取向;

然后他们又找来往期《我是歌手》,从中分析出哪些旋律和节奏更受欢迎;

在决赛之前,他们专门去节目现场安装了声音捕捉装置,用来探测现场观众的欢呼声浪大小;

他们还在现场安装了人脸捕捉装置,用以探测观众的哭、笑、流泪;他们还向湖南卫视要来了实时收视率数据,由此可知每时每刻观众的“跳台率”。

总之,凡是能用来预测未来的数据,能收集的全都收集了。

直播开始后,每隔五分钟,系统就根据最新数据一顿狂算,刷新一次冠军概率,有理有据,朋克异常。最终,机器人成功算准了半决赛前三名中的两位,并且在决赛直播中一举预测了总冠军李玟。

你看,如果没有科技,平淡无奇的数据就这样躺在世界的角落里吃灰,但用大数据技术把它们炼在一起,居然就能成为“看见未来的水晶球”。

刚才中哥故意打了个“马赛克”——没有透露这次预测背后操刀的老司机是谁。估计你也猜到了,正是甘云锋和他的团队。只不过,这位执拗的技术大牛几经辗转加入阿里巴巴后,取了一个更为人熟知的花名:风剑。

风剑是2011年加入阿里巴巴的。这个时间一点儿都不偶然,其实就在那几年,阿里巴巴网罗数据英才成立“数据平台事业部”,全中国最好的数据大牛几乎尽入阿里彀中。这么做,当然不是为了预测《我是歌手》,而是为了四个字:真金白银。

不如说直白一点,阿里巴巴最想预测的就是:你(别瞅了,就是你)可能会买什么。

举个例子:你在淘宝上的每一次浏览什么商品,浏览多久、是否收藏、经过多久下单、下单之后是否回购,这些数据其实都可以被阿里巴巴用来给你“号脉”——猜到你的喜好,从而主动出击,给你推荐更适合的东西。

在淘宝的各个页面里,其实都是给你量身定做的内容。

阿里巴巴也不是从一开始就意识到大数据这么有用的。大概从2008年左右开始,淘宝的数据沉淀增多,大数据计算的理论框架成熟,计算力成本也在下降,他们意识到,自己平台上几亿用户每天“折腾”的数据一夜之间变成了一座挖不尽的金矿。正如王思聪16岁的时候才听说原来老爸是个富豪,这种感觉不要太好。

虽然家里有矿,但矿藏不是你想采,想采就能采。要把“大数据”的矿石冶炼成黄金,还要解决多如牛毛的具体问题。

举个例子:

在2013年的阿里巴巴集团下面,其实是有淘宝、天猫、聚划算、航旅、无线、阿里妈妈等等25个事业部,几乎每个事业部都各自存储着消费者的数据。

由于这些系统诞生的时候,谁也没想到后来还能用大数据系统分析,所以相互之间没有设计数据互通机制。。。。

这就像战国时期的车轨距,有五尺、有六尺、有七尺,还有五尺半。。。要是这么搞,再厉害的老司机也没办法在战国七雄之间无缝飙车。

其实,风剑加入阿里后,很快就和其他大牛们一起投入了“数据打通”的战斗。他们陆续花了三年的时间,才建好了一个叫做 TCIF(淘宝消费者信息库)的东西。有了 TCIF,阿里巴巴内部的数据才实现了“车同轨”,这才有了后来奔涌的大数据史诗。

“统一六国”之后就万事大吉了吗?图样图森破。老司机们还面临各种奇葩的问题,再给你举一个比较有趣的例子:

我问你,假如你是淘宝用户,但是你今天逛淘宝忘记登录自己的账号了,那么淘宝怎么知道你是你?

如果淘宝不知道,就只能推荐给你一些大众喜欢的东西,你败兴而归,淘宝商家也赚不到钱;如果能猜到是你,那么就可以推荐更适合你的东西,没准你就挑中了一样心水宝贝,淘宝也赚钱,皆大欢喜。

所以“知道你是你”,还挺重要的。

这个事儿,归阿里巴巴的广告事业部“阿里妈妈”管,那时候阿里妈妈的很多同学觉得“猜人”的难度太大了,最多只能探测一下你用的这部电脑(或手机)之前登陆过哪些账号,在这些人中随机认定一个。这样的“盲猜”,识别准确率只有17%左右——蒙六次能对一次。

↓↓↓你也来盲猜一下,他们都是谁???看你的准确率有没有17%↓↓↓

↓↓↓下面揭晓答案↓↓↓

可是数据老司机风剑却闻到了机会:用户留下的信息,可不只有设备号这一个。还有 Wi-Fi 环境、操作习惯等等,蛛丝马迹其实已经足够多了,如果把现有这些数据进行“深度计算”,就像拼图一样,猜出用户全貌也许并没那么难。

于是他跟领导申请,带队做一套识别用户精准身份的“ID-Mapping”(用户ID关联识别)系统

系统不是你想做,想做就能做。ID-Mapping 的投入少则需要大几千万,多则几亿,可是做出来后效果究竟如何,没人说得准。数据平台事业部从上到下,有四五个领导看过之后都觉得风险有点大,建议是:先停下来,等等再说。

风剑三番五次解释,领导两次强势叫停。

风剑的祖传脾气上来了,做了一件“大快人心”的事儿:把老板们集体拉黑。他还放出狠话:“这件事儿,在技术上我已经认准了,我给你们两个选择:要么开除我,要么我就把 ID-Mapping 做到底!”

这波操作把当时他团队里的几个同学们都吓傻了。

江敏就是风剑团队的一员,回忆起来,他笑着说:“当时觉得,风剑太硬核了,没等领导给他两个选择,他居然先给领导两个选择。。。领导最后居然还选择了屈服。。。不过后来事实证明,风剑的技术眼光真的是领先大家好几年。搞事情,就得跟着这号不撞南墙不回头的人才能成。”

ID-Mapping 陆续做了一年多,结果大获成功:阿里妈妈之前对用户的识别率只有17%,使用 ID-Mapping 之后瞬间被提升到了75%,点击转化率从之前的 0.15% 提升到 2%,狂飙十三倍。。。

这意味着背后带来的额外收益,不知道值多少个“小目标”。

这一下,原来最激烈的反对者都哑口无言。

在后来不久,友商们也纷纷开始尝试 ID-Mapping,大家有点后怕:如果阿里不是提前搞定这项技术,就会在电商竞争里吃一个大亏。

ID-Mapping,加上刚才介绍的打通阿里巴巴各个业务部门数据的系统 TCIF,再加上同样是风剑主导的,让淘宝商家可以傻瓜式地向指定人群投放广告的系统 DMP,这三大法宝,构成了阿里巴巴的大数据能力的基石,还在2015年被 CEO 张勇评为阿里巴巴“最有价值的数据战略资产”。

这,就是被无数业内人士津津乐道的“阿里巴巴大数据中台”。

2014年阿里巴巴在美国上市,风剑和同事们的合影。

而在大数据能力的加持下,阿里巴巴的收入突飞猛进,正是因为看到了这一切,马云才在那次大会上豪情万丈地宣布:人类将进入“DT 时代”。

风剑的梦想也开始上头。

(三)西天取经

 大风起兮,必有英雄。

阿里巴巴把数据平台事业部一分为二,一部分留在阿里内部维护既有系统,一部分划入阿里云,负责“先富带后富”——帮助其他公司使用大数据。

作为一个铁杆理想主义者,风剑的想法很明确:“大数据能预测未来,当然应该让全世界的公司都学会啊!”于是他一秒犹豫都没有,加入阿里云,组建“数据创新工作室”,开始了“布道生涯”——帮助其他企业建立他们自己的数据中台。

马云、王坚、胡晓明来参观数据创新工作室,左一为风剑

然而,理想的宿敌从来都是现实。

注意,风剑的本意是授人以渔——教会别人怎么利用自家的数据;可是那时候,大多数找到风剑的人却希望阿里巴巴授人以鱼——直接把你阿里巴巴的数据给我用。

直接把阿里的用户数据给另一家公司用,会有效果吗?很可能有。能不能这么干呢?绝对不能!

这里有个巨大的问题:所谓的“鱼”——用户数据——其实属于阿里巴巴和用户双方联合产生。虽然当时的法律没有明确规定,但是风剑的直觉告诉自己,如果靠卖用户数据赚钱,恐怕三年之内,脑袋就不在自己脖子上了。。。

况且,对于一家公司来说,最好用的数据肯定是自己的数据。这就像衣服一样,把别人的衣服拿来穿,虽然能穿,但大概率是不合身的。

于是,风剑的日常剧本就是给各路客户解释:“你自己家里这么多矿,不需要惦记别人的数据!”

这条路走得异常艰辛。

那天睡不着觉,他突然开始反思三个问题:

第一,眼看企业的数据越来越多,一旦大家都掌握大数据技术,那这会不会是一个巨大的商业机会呢?

第二,但现实很骨感,99%的企业还没有大数据入门。这场“布道”至少还得坚持五年到十年才能获得回报。我能坚持下来吗?

第三,如果我决定去“布道”,是背靠阿里这棵大树更好呢,还是独自远行更好呢?

对于第一个问题,答案毫无疑问:是。

对于第二个问题,答案也斩钉截铁:能。

“我把一辈子都用来和数据打交道了,做别的都没兴趣,别说十年,坚持一辈子都没问题吧。”风剑说。

至于第三个问题,他的答案是:要独自远行。

数据都存在企业的 IT 系统里,但企业的 IT 系统千差万别,就拿底层的云计算来说,有的使用阿里云,有的使用华为云,有的使用腾讯云。如果留在阿里巴巴,我肯定只能使用阿里的技术体系来帮企业解决问题。

这样,虽然看起来是背靠大树,但是从长远来看,我自己也被拴死在这棵大树上了。被拴在树上,又怎么“西天取经”呢?风剑说。

第二天一早,他下定了一个大大的决心:

阿里巴巴曾经像一个光芒万丈的宫殿,给了自己无限荣光。但是现在,是时候深鞠一躬,收拾行囊,去西天取经了。

你可能会笑,创业就创业呗,怎么好像生离死别一样。

其实还真有点生离死别。。。作为功臣元老,当时风剑手里的阿里期权可是不少,如果拿到现在价值最少5000万。如果换做是中哥,和阿里告别,容易;和钱告别,难。

我说服了自己,如果我留在阿里,就会越来越有钱,越来越丧失改变世界的斗志。为了那个更大的目标,我别无选择,必须“斩断情丝”。风剑笑。

具体来说,风剑想创业做什么呢?

他想要做“数据中台”,这个中台要像一个“大厨”——无论是政府、金融、地产、工业、传媒各个行业,只要把自己的 IT 系统连通这个中台,就等于提供了食材(数据)。接下来不用管,想吃什么菜就能自动炒出什么菜。企业不需要有阿里巴巴那么强的大数据经验,“哪里不会点哪里”就行。

如果真能做出这么一个适合各行各业的数据中台,未来肯定会像云计算一样成为各个企业的基础设施,大放异彩。

可是这条路又太艰险:

首先是人的问题:大数据布道是个漫长的过程,很可能十年后才能看到大规模商业回报。这一路西去,艰险异常,稍不留神就会被妖怪当点心,有谁愿意和自己同行呢?

其次是钱的问题:这样一个基础平台,相当于大数据系统“全家桶”,开发所需要的人员和资金至少是1亿起步,几百号顶级程序员。钱谁出?

总之就是一句话:上一个想去西天取经的,已经在路上被老虎吃了。。。

至于人,幸运女神眷顾,风剑很快就如愿以偿——由于在阿里巴巴的战绩实在太辉煌,团队里一共六位骨干,听说他要创业,有五位技术大牛都决定追随他“西去”。

至于钱,说实话,那时候风剑连什么是VC(风险投资)都不知道。这时,幸运女神又眷顾了。

风剑刚刚提交辞职申请,还没对外宣布时,著名风投 IDG 资本的大佬们找到他,本来只是向他询问一些大数据的行业技术知识,没想到风剑一个鲤鱼打挺:你要聊这个我可就不困了。

他一个小时嘴没停,像含着一把机关枪,把他对于大数据未来的思考一股脑扫射过去,把对面打成了筛子。末了,对方从懵逼中回过神来,问:你怎么不创业?风剑说:谁说我不创业?

就这样,IDG 成了他们的天使投资人。

当时《疯狂动物城》正在上映,风剑特别喜欢里边那个“树懒先生”,盖章贼慢,但是飙车很猛。这种老司机的沉稳形象正中风剑的下怀。

“积淀的时候很慢,爆发起来谁都追不上,正是创业应该有的样子。所以我们就把公司起了个谐音的名字——数澜科技。”风剑回忆。

数澜科技的核心产品——数据应用的基础设施——被起名叫做“数栖平台”。

分工很快决定,风剑任职 CEO,之前被风剑的“硬核”所折服的江敏做 CTO,高雁冰管市场,付登坡做数据架构,当年预测《我是歌手》的算法大牛白松和赵东辉当数据科学家,黄耐寒任技术研发专家。

这一年,风剑43岁。

几位创始人合影,从左到右分别是:白松、付登坡、高雁冰、甘云锋、江敏、黄耐寒。

(四)数据“厨师”

 老司机们一头扎进研发,一路无话。

趁这个空档,我给你讲讲数栖到底是怎么工作的。

风剑特别跟我强调:数据中台不是产品,而是一套机制。这是啥意思?还是拿烧菜举例,想要做出米其林餐厅的美食,不是买来最好的菜、肉、锅、炉灶这些“产品”就行的,而是要主厨设计出一整套做菜的流程,什么食材用什么方法处理多长时间,哪几个工序怎么衔接,有了这套机制,人人都是食神

具体来说,这个机制大概分四步:

第一步:业务的数据化。

我们继续用米其林餐厅举例。负责采购食材的是一个人,负责面案的是一个人,负责切墩的又是一个人,负责帮厨的又是一个人,他们各自掌握一些信息,但是却难以相互沟通。这就意味着主厨没办法把他们的数据捏到一起联合计算。

此时,就需要一个像阿里巴巴 TCIF 一样的系统,把各个工种的数据连通起来。

你不妨想象一个幼儿园,小盆友就是数据。他们本来散落在各个班级里,现在要让他们统一站在操场上。

虽然连通数据的工作很枯燥,但是一旦完成,后面的一切都会变得有据可循。

第二步:数据的资产化

接下来是要让数据“排排站”,就像课间操一样,小朋友按大小个排好队,用专业术语讲,这叫做给数据“打标签”。如此一来想找谁的时候,就可以直接根据标签“按图索骥”,不用大海捞针了。

第三步:资产的服务化

如果每次找小朋友,都需要老师人肉去喊,那效率可太低了。此时,必须有一套自动化的“机械臂”,想要哪些数据,机械臂就会迅速把他们抓在一起。只有这样,大数据计算才会从一个“花瓶”变成真正高效率的自动化服务。

第四步:服务的业务化

大数据能力被打包成服务后,就可以提供很多“规定动作”了。就像餐厅的菜单,顾客只要简单地在菜单上一指,后厨就自动启动流程,美味佳肴就送到了桌前。这样,一个米其林餐厅才华丽丽地出现。

当然,做完这四步之后,你的菜肴会深受喜爱,越来越多的吃货会来你的餐厅消费,于是你拥有了更多用户数据,接下来又可以回到第一步,把新客户的业务数据化了。如此循环,一步步出任总经理,迎娶白富美,走上人生巅峰。

既然目标是做这个世界上数据应用的基础设施,数澜的老司机们就必然面对一场代码的“长征”——虽然在2016年底代码就可以跑通了,但是数栖真正成熟,已经到了2017年秋天。

全公司上上下下一百多号人,都开始八仙过海各显其能,只为了一件事情:找客户

(五)九九八十一难 

失去了阿里巴巴的光环,数澜这群人看上去和创业大潮中的普通人无异。除了两种人坚定地相信风剑:第一种,投资人,第二种,自己和团队。

在平台研发的过程中,没有产品可卖,他们就抽空给客户做大数据相关的项目,“贴补家用”,积攒口碑。

那时候,无论是CTO 还是技术专家,出差都是家常便饭。情急之下,还得在自行车上工作。

江敏是个极其严谨的人,每次去飞机场都要提前两小时到。没想到,有一次脑子里跑着给客户的方案,竟然在错误的登机口坐了半天,飞机都走了半小时,他才反应过来不对劲。

风剑只要求一点:我们是大数据的布道者,虽然现在是做小项目,但一点都不能偷懒,无论项目是赚是赔,一定要尽全力做到最好,而且,不能客户说什么就干什么,要让用户知道最正确的大数据技术应该是怎样的。

数澜科技开出第一张发票,几位创始人还拍照留念。

各行各业都流传一句话:数澜这帮人拗得很,但他们不是为了坑你,是为了帮你。

就这样,数澜的口碑一点点建立起来,客户也一点点变大。

终于,一个大型央企集团注意到了数澜科技。出于客户保密需要,我们就叫它Z集团吧。

回忆这个项目时,

先笑了。

2018年,Z集团经过测试,对数澜的技术非常认可,可是领导层却提出了一个直击灵魂的问题:你的系统可是要布置在我最重要的地方,但数澜毕竟是家创业公司,说不好听的,万一哪天你公司挂了,我找谁来后续维护系统呀。。。

Z集团的担心有道理吗?有一定的道理。这句话扎心吗?真扎心啊。

他们提出的意见是:要不你把源代码给我吧。

风剑一听到这个要求,内心万马奔腾。辛辛苦苦开发了两年的源代码,集结了老司机们十多年的心血,怎么可能给人?而且,如果客户自己维护源代码,后续不仅要投入很多人力和资本,还没办法跟随数澜的版本进行升级,这反而不利于他们把数据用起来。

可好不容易撩上了这么大的客户。。。大伙儿都看着风剑。

风剑沉默了五分钟,说了两个字:“不给。”

“好好跟客户解释,我们说的有道理,他们一定会同意的。如果不同意,说明他们还需要一些时间来理解我们的梦想,损失了这单生意也不可惜。”他补充。

经过一个多月的沟通,连对方的领导也变成数澜的帮手,跟集团反复斡旋,终于给数澜科技开了绿灯,同意了“不给源代码”的要求。所有人长舒一口气。

系统搞定后,Z集团迅速在这个基础设施之上开发出了很多之前根本实现不了的业务,例如对每个用户都做到“千人千面”的精准营销。一票同类企业都分外眼红:“原来把自己的数据用到极致,居然是这个效果。。。”他们纷纷找到数澜科技,求来个一模一样的。

数澜科技在业内名声鹊起,越来越多人开始理解风剑的“大数据哲学”,也愿意成为他所想象的“大数据未来”中的一员。

这是数澜的同学在客户现场实施,你可能猜不到,照片拍摄时间是凌晨一点。

越打怪升级,碰到的 BOSS 就越大,2019年春天,数澜这群老司机迎来了一场大考,这次的主考官是:万科集团。

很多不了解万科的人以为它只是个“卖楼的”企业,但其实万科集团有49家子公司,横跨地产、养老、旅游、投资等等11个业态。

万科找到数澜,交给他们一个重任——把49家子公司的数据整合在一起,建立一套统一的大数据基础平台。

这么大规模的数据系统,不正是风剑梦寐以求要做的事情吗?为此,风剑把主力精锐尽数派出。

进入万科的内部,这群老司机领略了什么叫做真正的“复杂”。万科是1984年成立的老牌企业,各个子公司里的系统,简直就是大型的“IT 博物馆”,从旧到新,应有尽有。

幸亏在过去三年,数栖已经升级到了4.0,大仗小仗打过无数,对各种系统都死磕除了相应的对接方案,只剩一些角度刁钻的系统适配,需要现场研发。

数澜的同事们一身冷汗,要是早几年初生牛犊不怕虎,直接和万科合作,没准就死在这里了。。。

不过,最关键的一件事风剑早有预料,那就是万科子公司们使用的基础算力系统来自于阿里、华为等等好多家。把它们打通的时候,就需要让阿里云和华为云这些竞品相互对接。这种情况下,如果风剑仍然代表阿里巴巴来做改造,就像在苹果上跑起安卓的应用,那是不太可能成功的。

实际上,每一家大公司从安全角度考虑,IT 系统都不可能只选某一家的产品。大数据中台这件事儿,只有中立第三方公司才能做成。风剑说。

这个项目从2019年3月一直做到秋天,到了临近验收的日子,万科集团点名要风剑去参加验收活动。

风剑心里七上八下,这个项目进展的时候,经历了好多困难,他是知道的。“虽然最后都搞定了,但是万科的老总们恐怕还是会数落我一顿。”他叹了口气,既然是创始人,我不顶雷谁顶雷?就算是鸿门宴,也得赴约。

他知道自己的脾气不好,很可能现场哪句话没说对就怼起来,于是去之前做了充足的心理建设,想了对各种质疑的妥帖回答方式,在飞机上还自己叨咕了一遍。走进验收会会场之前,他深吸几口气。。。

果然,一到验收现场,领导们把他团团围住。。。。。一顿猛夸。。。。

万科各个子公司的项目负责人介绍了系统给他们带来的好处,罗列了很多数据,其中有一个让风剑印象最深刻:

万科物业一直以来业主满意度就很高,超过90%,但是这个满意度却在原地徘徊了很多年。用大数据中台进行分析以后,物业马上找到了很多“隐藏问题”,仅仅用了三个月,就把业主满意度突破性地拉升了2%。

老大哥的示范效应非常强大,万科一役后,旭辉地产等等很多房地产企业也纷纷找到数澜合作。

在数澜,还保存着一张照片,这是数澜夺得2016年阿里巴巴诸神之战全球创客大赛中国区冠军时,其他选手找风剑合影。

从空中俯瞰,就像一场大迁徙,越来越多的企业鼓起勇气跨过那条湍急的河流,从所谓的“传统企业”变成了“数据驱动”的新物种。

最让风剑记忆深刻的一家企业,是时尚集团。没错,就是那个《时尚芭莎》《男人装》的时尚传媒集团。

时尚集团找到数澜的时候,数澜的同事问他:你们企业的 IT 系统用的是哪家?结果时尚集团回答萌翻了一屋子人:就有个 ERP 系统,没其他 IT 系统了。

“那你们的数据存在哪里?”

时尚集团的同事掏出包里的杂志:“在这里。”

没错,时尚集团的数据,就是过去三十年出的杂志。

这样的数据也能用??真男人绝不说不。数澜的老司机们帮助时尚集团通过扫描和文字识别的方法,把之前所有杂志的内容全部扫描了一遍,在网络空间重建了所有过往文章的内容和排版。

这下,历史上任何文章、图片,甚至是音频、视频,只要通过智能内容搜索,就可以全部出现在眼前。

而根据当年杂志里广告的位置数据,再结合当时广告的效果数据,时尚集团拥有了一个大数据广告系统,可以瞬间预测哪类广告对受众更贴合,也可以预估回报的多少。在这个系统之上,时尚集团建立了电商平台,新业务风生水起。

各行各业对大数据的理解程度不同,家里的实际情况又不相同。所以在最初几年,数澜科技的同事都是扑到对方的集团里,一点点地和对方商量、研究,每做一个项目都像罗丹在雕刻一件艺术品,漫长而反复。

这就像唐僧西去的路上,刚捉住了几个妖,又擒住了几个魔,九九八十一难,未免一言难尽。

要说苦,当然有很多,但其实大多都记不住了。

有时候,看着数澜亲手把这些传统企业送到大数据的光芒之下,我就能知道背后整个国家的经济效率会因为我们微不足道的努力而有一点点提升。你说,想到这些,还会觉得自己团队的困难都是大事情吗?风剑笑着说。

(六)无止尽的长征:数据智能 

老司机们埋头苦行,一抬眼已经将近五个春秋。

“你的布道进度条如何了呢?”我问。

“现在几乎所有的公司都认同一个基本事实:数据中台是企业生存发展的重要基础设施。而且在不少行业里,我们已经有了标准的操作方法。”他说。

科技史和自然史有一个共通之处:某种基础技术一旦普及,就会在其上进化出新的技术。正如哺乳动物占领地球后,人类才有机会诞生。

最近五年,因为有了好用的数据中台,我们积累下了更多数据,在这之上,人类猝不及防地解锁了一项技术:数据智能。

简单理解,数据智能=大数据分析+人工智能。

一旦用上人工智能,大数据就像插上了翅膀,分分钟要上天。不妨给你科普两个例子:

1、关系网络分析。

银保监会会对各个银行账户的主体进行智能分析,这些数据包括但不限于:账户之间的转账,各个账户向银行借钱的情况,商户主体之间的消费结算,企业主体之间的担保行为等等。

看上去没什么关系的数据,经过综合分析,就会描绘出一幅图景。这是真的“图景”,在这幅图里,各个主体之间的关系清晰可辨,于是,谁在洗钱,谁在骗贷,谁在连环担保,谁在薅社会主义羊毛,一眼就能看出来。

据此,相关部门就可以向金融机构预警高危账户。

2、工业智能。

一个玩具工厂有很多条生产线,所有生产线的状态数据都会进入数据中台,例如运转参数、噪音分贝、各个零件的影像等等。

应用数据智能,就可以轻而易举地预判哪条生产线即将出现故障,故障可能出现在哪个零件上。可以不用等到出问题再停机维修,每年节省几百万的成本都是很轻松的。

上面这两个例子,都是随着 IoT 和人工智能技术成熟,在最近几年大数据被新开发出来的用途。

这还远不是大数据时代的顶峰,5G时代到来后,数据量还会在现在的基础上暴增——相应的,数据智能所需要的存储量和计算量都会呈现几何级数的增长。

这对于金字塔的腰部——“数据中台”——来说将是个巨大的压力。

而数澜站在浪潮最前面,很早就意识到了这个问题。他们殚精竭虑,不断给自己的“基础设施”断增加新的技能。

1、例如,“实时计算”会成为大数据中台的一个标配。

传统的大数据计算,每天晚上对新增数据进行一下计算就能满足需求。但是在越来越多的场景里,一天一算已经不够了。你还记得预测《我是歌手》冠军的例子吗?在那个情况下,就是五分钟一次计算。

而在现在的很多情况下,用户做了某个操作,下一秒系统就要更新他的推荐内容。这就需要一个强大的“实时计算”引擎。

这就像神舟飞船合体天宫一号一样,需要实时计算当前的位置,才能完成精密的对接。

从2018年开始,老司机们就做了各种开发,让数栖平台可以支持各种实时计算引擎。

2、例如,“大规模数仓”也迫在眉睫。

传统的数据仓库就像一个大楼,所有数据在其中来回调度。但是,由于工程能力的限制,大楼没办法做到无限高。

于是很多大规模数仓的技术就应运而生。江敏告诉我,系统也在实时更新,保持对所有最先进的数据仓库的完美对接。这样的情况下,不论未来大数据的浪头有多么猛,大数据中台基础设施仍然可以岿然不动。

(七)布道者 

如果给我全世界的数据,我能给你预测未来500年的历史。

这是风剑经常“吹牛”的一句话。

听到这样科幻的话,我猜有人可能会担忧:世界上存在风剑这样的大数据的布道者,让大数据的时代更快来临,这对普通人来说,是更好了,还是更坏了?

我也一直在思考这个问题。末了,我忍不住直接问了他。

他给我讲了一个在阿里巴巴时代的往事。

2014年,阿里巴巴通过大数据分析,商品广告投放非常精准,以至于一个点击已经能卖到30多块了。这还仅仅是点击一次的价格。如果十个点击的人有一个买了商家的东西,那么商家为这一个成交,就需要付给淘宝300块。可是,淘宝上有什么东西的利润能够超过300块呢?阿里巴巴的高层发现,这件事儿已经非常不正常了。风剑回忆。

前车之鉴就是百度,如果一味追求提高广告的收入,那么到最后,给得起广告费的肯定是非奸即盗,不仅让用户寒心,还不符合公序良俗,对阿里巴巴的长远发展来说也是自毁前程。

于是,当时阿里巴巴定了一个奇葩的目标,降低单个广告点击的价格。

“我们会在给用户的推荐里,加入那些用心经营的店铺,让那些刚开始做,但想认真做长远的店铺也能得到曝光。”风剑说。

“可是,你怎么知道谁的店铺经营用心呢?”我问。

“当然还是用数据。一个店铺装修的次数,修改的次数,调整各种参数的次数,大量数据都会在那里,你要对数据有信心,因为数据能看清这个世界的真相,所以数据才能预测未来。”风剑说。

数据的问题,同样可以用数据来修补。只要人心正道,数据不会伤人。

2020年,虽然数澜科技的产品进入了地产、金融、安全、工业、出版传媒各个行业,但是风剑却非常警惕,他怕数澜科技变成倾向于某一个行业的解决方案厂商。因为他的初衷是:要做各行各业的基础设施。

三年间,很多友商都模仿数澜科技推出了“数据中台”。其中相当一部分从研发到上线只用了三个月。这一度让风剑有点焦虑。

但是,把两个产品一做对比测试,我马上就不焦虑了。因为三个月做出来的东西过于粗糙,缺少对数据理念的认知,完全没办法承担“大数据基础设施”的重担。风剑说。

自此以后,风剑向团队宣布,凡是产品研发几个月就推出的友商,根本不用浪费时间去研究。反而是像数澜这样,做了半天还不舍得把产品拿出来,想要再仔细打磨打磨的友商,才是值得重视和尊敬的对手。

“可能是我比较蠢比较笨。反正我觉得,短则十年,多则二三十年,才能真正打磨出一款数字世界的基础设施。”他说。

数澜从最初的的十来个人,到现在已经有了三百多人。而风剑一如既往,面对朋友总是一副笑眯眯的样子,好像体内永远奔涌着鸡血。

每年6月20日举办的数栖大会是数澜科技的“数据盛会”

但江敏告诉我,风剑也会把自己关在屋子里很久,只是外人很难看到。

如果真的有什么遗憾,可能公司越大,我越觉得孤单。因为我要承担一切决策的最终后果,所以很难像之前一样和好哥们嘻嘻哈哈。

但是,我们这群人错过了90年代的信息化浪潮,错过了00年代的互联网浪潮,错过了10年的移动互联网,我告诉自己不能再错过大数据浪潮,因为这是一个属于未来一百年的浪潮。我别无选择,我注定要经历这些。

风剑说这番话的时候,仍然是笑着。

2020年4月9日,国务院发布了《中共中央国务院关于构建更加完善的要素市场化配置的体制机制的意见》,在这个意见中,有一条让风剑觉得无比鼓舞:“数据”成为了五大生产要素之一,第一次比肩土地、劳动力、资金和技术,被认定为我们这个民族生存在世界上的钢铁武器。

那个1995年第一次看到大数据两眼放光的小伙子,那个大数据的孤独布道者,二十多年站在数据的土地上,如今看到了霞光万道。

于是我确信,布道者的心里也许没有自己的生死,他们关心的东西远远超越生命的长度。

投机者或许永远无法与潮共舞,而只有在世界中心默默等待的人,才配得上一场华丽的未来。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部