百度,技术求道二十年

百度,技术求道二十年
2020年01月15日 21:20 脑极体Unity

一家公司,可以靠技术走到多远?

1996年的李彦宏是否认真想过这个问题,我们不得而知。但他做的一些事,已经为这个问题作了回答。当时还在华尔街工作的李彦宏获得了超链分析的技术专利,这项技术创造性地把互联网页面引用相关性纳入了搜索引擎的考虑范畴。

在此之前的搜索引擎世界,你输入某个词,可能搜索出的第一个结果是某个无聊的人,在网页上把这个词打了一万遍。而超链分析的加入,让最权威、最官方、最热门的搜索结果有可能第一时间展现在用户面前。

凭借着这个信息学技术与互联网应用“天马行空”般的结合,李彦宏创造了进入21世纪之后新一代搜索引擎的关键技术,也创造了百度。

从这个角度看,百度就是诞生于技术创新之上的。它因技术车轮的转动而生,也在技术引擎的呼啸声中不断向前。而今超链分析作为百度的原创技术,已经在全球所有搜索引擎中服务这个世界,而百度究竟有过多少种技术创新,恐怕也需要某种厉害的技术才能统计清楚。

今年是百度成立的第二十年。不知道从什么时候开始,互联网圈子里开始说这样一句话:腾讯的产品,阿里的运营,百度的技术。

而当时针悄然划到2020,从搜索到AI,从互联网浪潮的崛起到智能时代的晨曦。这家名叫百度的公司,已经行走于,笃信于、开垦于技术,整整二十年。

这是百度从未休息过的技术创新二十年。

技术就是闪电

“众里寻他千百度”。百度这个名字,可能注定就是要探索更多未知。

可能很多人已经不记得,初生时的百度就是一家技术服务提供商。2000年6月,百度首次为门户网站提供搜索技术服务,随后又提供中文网页信息检索服务。此后不到两年时间,百度就占据了全国80%的网站搜索技术服务市场。回忆一下,会发现技术优势是百度诞生之源,而在众多互联网公司中,百度可以说是先天具备to B基因那一家。

随后,李彦宏决定迅速调整战略,将业务模型从提供搜索技术服务,转向到自行经营搜索引擎。在这场从企业市场走向消费市场的变革中,技术依然是百度的主干道。

在所谓“互联网模式还未兴起”,中国还没有流行“微创新”的时候,也很少有人相信依靠硬技术,一家中国公司可以干掉全球化布局、技术遥遥领先业界的谷歌。

但李彦宏却相信可以。而这之后的故事证明,这真的是一个非常朴实的技术判断。

在2002年,李彦宏亲自发起了能刻上《搜索引擎史》的“闪电计划”,即要求百度在9个月内,将日访问页面提升10倍,页面反应速率达到和谷歌一样快,内容更新频率全面超越谷歌。

在闪电计划的最后几个月,李彦宏亲自下场带领小组成员进行研发。经过对搜索引擎大幅度的技术优化,兼容吸收了众多前沿技术之后,到2002年年底闪电计划目标已经完成。在那之后,百度一举奠定了技术体验最好引擎的交椅,也为飞驰的中国互联网产业拉开了序幕。

那时候,李彦宏经常把搜索引擎比作CPU。没有CPU电脑无法工作,没有搜索引擎互联网也就无法完成信息的传输和交互。CPU是电脑中最精密、技术难度最高的部件,搜索引擎也如是。

在百度看来,搜索引擎的技术进化是无止境的。在2005年,百度提出了“更懂中文的搜索引擎”这一口号,实质上已经开启了搜索引擎与语义理解、语言分析等智能技术的结合。从搜索到智能,百度技术之道“一以贯之”。

框计算的未来属性

二十年时间,会沉淀众多关键改变的发生节点。对于百度来说,2009年的百度技术创新大会可算一个。

那时智能手机还没有兴起,中国互联网产业普遍更多关重营销和渠道,鲜少有大会提及技术。这时,李彦宏却首次提出了“框计算”概念。所谓框计算,是指用户在“百度框”中输入服务需求,系统就能明确识别这种需求,并将该需求分配给最优的内容资源或应用提供商处理,快速反馈给用户精准结果。比如用户输入“搞笑的句子”,搜索引擎将为用户送上这些句子,而不是带有这句话的网页。

即使在今天,框计算依然代表着非常高级的人机交互方式。回到2009年,这一技术理念更是具有绝对说服力的前瞻性技术。

“框计算”的本质,就是AI技术中非常关键的需求识别与知识图谱。实现框计算,既需要极具前瞻性的AI技术探索,同时也需要强大的搜索引擎技术作为支撑。比如搜索“搞笑的句子”这句话就要通过3亿次计算来识别需求,并在100亿个网页资源中检索并进行需求分配,整个过程要在不到十分之一秒内完成。

这项跨越了两个代际的超前技术,不止展现出百度的技术厚度,同时也充分释放了百度对未来技术世界的构想与判断。如今担任百度CTO的王海峰,在当时已经是享誉国际的AI科学家,他就是了解到百度在框计算领域的投入和笃定,才决定加盟这家成立不到十年的互联网公司。

对于技术信仰者来说,远见是最有吸引力的一种品质;当你拿出一项技术时,也就完成了与时代的无声交流——这也是在技术世界中,百度始终是那座高塔的原因。

看到AI,探索AI

到了2010年前后,中国互联网用户规模突破了4亿,智能手机刚刚完成了3G网络的普及。那时你与99%的中国互联网从业者讨论AI,他大概都会聊起电影和文学。

而百度,竟然真的在那时开始布局和构建AI了。

百度与AI结缘之早,至今是众多互联网爱好者眼中的“未解之谜”。但是如果从技术发展的趋势看,却可以看出百度的诞生就建立在将搜索引擎智能化的基础上。开拓期的十年间,智能化也成为百度眼中最清晰的未来。

而王海峰的加盟,某种意义上代表着百度技术开启了新的阶段:科学家与互联网公司携手合作的日子开始了。

如今,科学家的多少已经成为了互联网公司的某种“指标”。但在2010年,大部分互联网公司还是一股“草莽味道”。这时间的百度,却走向了产学研高度结合的技术迭代之路。

随着王海峰的到来,百度在随后移动时代与智能化浪潮中的技术组织布局接连启动。比如后来被称为“技术铁军”的 “百度自然语言处理部门”成立,以服务搜索引擎中发生的NLP需求与智能化升级趋势。随后在语音、图像的智能化领域,百度“多媒体部门”诞生,接着非常重要的知识图谱系统也被确定。

在百度业务体系中布局AI技术组织之外,还诞生了另一个百度技术史上的关键节点——百度深度学习研究院(IDL)的成立。

当时,深度学习对于互联网产业来说还是极尽陌生的名词。我们似乎无法想象,会有一家公司能够像百度一样,在2012-2013年间就开始布局深度学习。

奇妙的是,李彦宏和王海峰关于在百度开展深度学习基础研究的想法一拍即合。就这样,深度学习在中国的齿轮开启了转动。

这之后,前瞻性技术与产学研高度一体化研究,开始成为了百度技术的标配。2013年初IDL成立后,百度又陆续成立了大数据实验室BDL、硅谷人工智能实验室SVAIL等,并将这些研究团队,逐渐打造成负责前瞻性科学探索研究的百度研究院。

2019年底,国家工业信息安全发展研究中心发布了《人工智能中国专利技术分析报告》。报告显示 ,百度以5712件位居AI专利申请量榜第一。成绩的果实背后,总有关于技术的洞察、布局和经年磨砺作为前因。

搜索与智能合流

在百度技术史中,是无法把搜索引擎和AI彻底区分开的。确切来说,AI作为一种通用底层技术,可以广泛融入和支撑起作为应用技术的搜索引擎。

从2014年开始,百度开始基于知识图谱、图像识别、语音识别、自然语言处理等技术,开始进一步加码对搜索技术的升级。并且开始将深度学习技术引入搜索引擎之中,让搜索的智能体验更加准确和自然。

接下来的几年间,百度搜索推出了语音搜索、图像搜索和拍照搜索功能,并且建立了全球最大的中文知识图谱。这些技术的攀爬,推动百度搜索不再仅仅是单一的搜索引擎,同时变成了用户了解世界、探索世界的入口。

与此同时,百度AI在移动互联网领域也加速了技术推进。比如百度信息流产品上,百度的AI技术支撑起了领先业界的内容抓取准确度和用户推荐模型精准度。又比如这一时间由语音搜索功能孵化出了度秘,这一技术体系成为百度移动生态、百度输入法,乃至后来整个小度软硬件体系的起点。

到2019年第三季度,百度搜索的首条满足率已经达到了56%。搜索引擎已经能够准确理解用户需求,提供直观、准确的信息、知识和服务。百度APP多轮语音对话问答和真人聊天几乎无区别,点开相机图标就能自动识别超过1000万种物品,30+场景识别。

而百度的技术之路,也开始指向下一个宏伟的时代。

智能时代的基座

从贝尔实验室到IBM,技术公司的前行往往会经历这样一个过程:从应用技术不断向底层技术、基础技术发展,最终通过底层技术的突破和发展,孕育下一个产业时代。

相比从搜索到AI的明线,从应用到底层技术的层层突围,可能是百度较少为外人所知的技术暗线。在百度开始布局AI等前瞻技术的同时,也开始坚定推动相关技术的平台化,打造技术基础设施。而当AI时代真正到来,整个中国社会会在产业智能化道路上,发现对关键基础基座的战略性需求——而此时,百度已经准备好了那个支点,是谓中国AI的“百度红利”。

百度红利的最典型体现,就是飞桨的创生与成长。

如今,AI开发需要基于深度学习框架,几乎变得家喻户晓。但在2012年,深度学习框架的概念在中国几乎是完全的空白。在欧美主流框架也刚刚开始发展的彼时,百度却已经着手开发了飞桨这款中国第一个、也是目前唯一一个完全意义上的深度学习开发框架。

当时开发飞桨,百度的初心其实无比简单。就是当时主流欧美开发框架仅支持单一GPU,无法进行大规模数据处理的问题。于是百度带着技术公司独特的刚猛,决定干脆自己造地基,经过长期内部应用后,飞桨在2016年正式开源。

这也让百度成为继谷歌、Facebook、IBM之后,全球第四家、中国第一家开源深度学习开发框架的科技公司,从而让中国在这个关键领域没有陷入长期滞后。

2017年秋天开始,百度开始给予飞桨强力支持。2018年7月,百度调集精兵强将,成立了深度学习技术平台部。到了2019年,飞桨的升级速度已若雷霆。通过对大量技术、服务、定制工具以及预训练模型的集成,飞桨成为了以深度学习框架为核心的深度学习平台,下接芯片,上承各种应用,是名副其实的“智能时代的操作系统”。

作为国内唯一开源开放、功能完备的深度学习平台,飞桨已经走向了标准化、自动化和模块化的发展阶段,可以满足产业开发者复杂多样的AI开发需求,并且具备开发便捷的产业级深度学习框架、超大规模深度学习模型训练技术、多端多平台部署的高性能推理引擎、开源开放覆盖多领域的产业级模型库四大全球领先的核心技术。

如果说飞桨是AI时代的操作系统,是开发者随时可用的工厂;那么百度大脑就是AI时代技术集大成的代表,是可以满足各种产业智能化需要的AI超市。

早在2016年的百度世界大会上,百度大脑正式对外发布。这一举动标志着百度将积累数年之久的AI核心技术和AI平台对外开放。到了2019年互联网公司开始讲技术中台,而百度的技术平台化却能上溯到几年前,并且通过百度大脑之名完成了对社会的开放赋能。

AI技术的企业,不可能像百度一样从头开始研发AI技术。能站在百度的肩膀上进行技术和应用创新,对刚刚兴起的中国AI产业来说是一个关键利好。

为了让AI技术的应用者,不必从头建造轮子,百度大脑从开放开始,每年都完成着幅度巨大的进化。2017年7月的百度AI开发者大会上,百度大脑2.0正式发布,这一版本开放了包含基础层、感知层、认知层和平台层在内的完整AI技术体系;开放了语音、图像、视频、增强现实、自然语音处理等60多项AI核心能力,让AI赋能开发者和行业应用有了足够多的技术支撑。

到2018年的百度AI开发者大会,百度大脑宣布升级至3.0,所开放的核心AI技术达到110多项,形成了从芯片到深度学习框架、平台、生态的AI全栈技术布局。尤其“多模态深度语义理解”的技术突破,让百度大脑走向了世界AI产业的技术最前沿。

2019年,百度大脑又进一步得到了跨越式的升级。在百度大脑5.0版本中,语音、视觉、语言和知识等核心算法都得到了再次突破。例如语音方面,流式多级的截断注意力模型(SMLTA)使语音识别速度和识确度大幅提升,并可解决中英文混合语音的识别难题;风格迁移的语音合成技术,仅需20句话就可以制作一个人的专属声音,不仅保留语音中的音色、风格、情感等要素,使用时还可任意组合、灵活控制。

自2016年至今,百度大脑已经开放了228项领先AI能力,开发者数量超过150万,日均调用量突破1万亿次,语音、人脸、NLP、OCR调用量中国第一,是业内最全面、最领先、服务规模最大的AI开放平台。百度大脑成为了具备深度学习框架、场景化AI能力、定制化训练平台到软硬一体模组和解决方案等,可以为多样性的AI需要提供技术支撑。

假如说,搜索引擎的核心突破,让百度成为了互联网时代的“CPU”;那么从飞桨到百度大脑的AI基座建设,则让百度有机会成为智能时代,千行万业的“发动机”。

用技术改变时代这件事,百度习以为常。

超级绽放

刚进入21世纪的时候,大部分中国人还无法想象有一天可以用搜索的方式了解世界。那时候的中国,正在等待百度用核心技术表演一次“信息绽放”。

当时间来到21世纪的20年代,这个对我们所有人来说都很陌生的时代。百度走过了属于技术的二十年,从百度用AI完成的各种改变中,我们已经可以略微猜到接下来准备开启的“超级绽放”。

2017年百度AIG的成立,标志着百度是国内第一个将人工智能技术作为独立部门运作的大型科技公司。依托于AIG提供的技术支持,百度原有业务体系得到了飞速强化、新业务战略触发点走向成熟。

比如,2017年,百度发布了全球首个自动驾驶开源项目Apollo自动驾驶开放平台。目前,百度Apollo平台已经汇聚了全球177家生态合作伙伴;在全球有97个国家超过3.6万名开发者使用Apollo开源代码,开源代码数量超过56万,Apollo自动驾驶平台已成为全球最强大、最开放、最活跃的自动驾驶平台。2019年,百度Apollo公开了国内唯一的纯视觉L4级自动驾驶解决方案Apollo Lite,为自动驾驶这个人类梦想提供了坚实的新发展契机。

在对话式AI领域,最早从智能化搜索技术的路径孵化出的小度助手,已经成为了国内技术体验最好、生态最广泛的对话式AI平台。小度技能开放平台为超过3.7万开发者,提供3500多种技能支持;小度助手的合作伙伴数量已经超过500家,可以控制的IoT智能家居设备已经超过了7000万。2019年,小度助手5.0还发布了全球领先的全双工免唤醒能力,实现了“一次唤醒,多轮交互”免唤醒词连续对话,真正实现了全球智能语音交互的领先。

在百度地图上,2019年推出的全球首个地图语音定制功能,让每个人都能拥有专属语音包;智能语音助手让很多人习惯了出行 “动口不动手”,累积用户量达到了3亿,稳居行业第一。依靠AI技术能力的加持,作为新一代AI地图的百度地图,已经彻底在体验上领先业界。

这种种绽放开的技术之花,仅仅是AI技术在百度体系内的“试验田”。在整个社会范围内,百度的AI技术已经渗透到各产业、各领域,为产业智能化时代的“超级绽放”做好了准备。

回望百度技术变迁的二十年,这个过程就像个小孩子,因为喜欢、热爱,以及对宏伟未来的无尽想象,而专心用积木搭建他心爱的城堡。慕然回首时,灯火阑珊处已经是广厦万间、桑林稻亩,他欣慰一笑,继续埋头于新的探索。

李彦宏在华尔街工作时,是凭借灵感和天才般的想象,把信息学与搜索引擎结合到了一起;王海峰加入百度时,看到的是互联网公司也能发展人工智能的惊喜;无数科学家、工程师走进百度,是因为他们相信这里是最能够纯粹做技术的地方,这里有最多的数据、最佳的算力、最领先的算法,也有最初的那颗心。

永远比时代超前两步,永远单纯如孩子。技术塑造了百度,技术最终会改变一切。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部