托好友福,得以参会。
上午还在家躺着看书撸猫,突然收到消息,下午有个论坛,Greg Yang 在。刚好周六写到他,问我感不感兴趣,也不远就应下了。
一身大汗到会场,刚好丘成桐老师致辞环节,结果丘老师有其他事,只能录像参加。小小遗憾了一下。
之后会程,沈向洋老师分享的算是夹杂私货最少的,加上他之前在微软的职位,能侧面透露一些信息。
下面就记我感兴趣的部分。
沈向洋大模型五问及其他
先简单回顾,深度学习崛起,然后当大家还在激烈讨论什么是 AGI 时,ChatGPT 横空出世,给大家都打懵了。
看着这么好的效果,大家自然就会发问,其中智能是从哪里涌现出来的?
好问题比好答案更重要,因为总能引人思考。
Q1:智能来自大模型?
沈老师认为,GPT2 -> GPT3 增大了两个数量级,之后 GPT3 -> GPT5 应该还要再增加两个数量级,到时是不是能出现更惊人的智能。
这个 Scaling Law 到什么时候收益才会慢慢减少?
不清楚沈老师是否有什么可靠信息源,此外 PPT 里(不知有意无意)跳过了 GPT4,4 按现在透露信息,相对 3 增加了一个数量级。
作为从业者,很难赞同 GPT5 再增加两个数量级,因为现在 4 的量级,数据已经不太够了(之后也有嘉宾提到类似观点)。而增加两个数量级,那以现在数据量,杯水车薪,其次推理成本太高了。
但也可能只是我想象力不够大,比如年初还不觉得 GPT4 是 MOE,最近又改变想法了。
假设 GPT5 要增加两个数量级,那可能的方案是,出于成本考虑应该 MOE 继续往下推,增加更多专家,同时搜集大量多模数据和文本数据混合训。
Q2:智能是在哪个阶段产生的?
当前 LLM 就是个 Next Token Predictor (没有感情的后一个 token 预测器),训练损失也不是很复杂。
那么智能是在哪个阶段出现的呢,Pretrain?SFT?RLHF?
我觉得,还是在 Pretrain,在预训练过程中见到大量多样高质量数据,即使只是通过 LM 损失预测下一个 token,但在这过程中通过不断学习相关性,产生了某种程度的智能。但这种智能,人类是很难感知到的,因为不是人类熟悉的交互方式,只能通过一些指标来感知。
而之后 SFT 和 RLHF,主要是做的 Alignment,用来激发和引导 Pretrain 模型,所以并不需要太多数据(最近 LLAMA2 又一次提到这一点)。这样的 Alignment,主要就是让人能和模型交互,也就能感知到模型的智能了。
这也是为什么基模型很早就放出来了,但直到 ChatGPT 出来,大家才会被打懵。因为基模型的智能,大家是难以感知到的,直到以 Instruct 和 Chat 的形式,人们才能感知到。所以可以说,智能还是人类挺主观的一个东西。
Q3:智能是来自什么数据源?
在预训练的数据中,什么数据才是智能的主要来源?
网页数据?
代码数据?
考试卷子?
我认为肯定都有,以现在网页数据占比,用来打常识基础,其中包括各种百科,而代码数据则是符号推理,考试卷子的话,比较好展现出来,当然也会有各种领域知识还有推理知识。
然后不同语言对智能的影响,因为现在整个还是英语占主导的世界,各种数据信息,特别是高质量数据,都以英语形式存在的,那是否会因为这个导致英语模型的整体能力会强过其他语言模型呢,比如中文模型。
这一点我认为是肯定的,数据的量和多样性对模型能力很重要。所以对于中文模型,还是需要训混合语言的模型,来利用到大量高质量英文数据。但如何避免其中固有的 Bias 那就是另外的课题了。
Q4: 在 LLM 里面是否存在一个相变?
是否真有某个阶段,突然就涌现出不一样能力。
这点,我目前比较倾向,Emergence is Mirage 那篇论文,涌现可能跟度量方式有关系,用某些度量方式,就会看起来像是突然就涌现了。
Q5:对于这个领域我们是否缺少好的数学工具?
对这个领域真正好用的数学工具会是什么?
香农的信息论?
维纳的控制论?
数学工具这块呢,压缩?反馈控制?恒定性?流形学习?
现在就是在盲人摸象,信息论之前有 Information Bottleneck,然后 Anthropic 是 Circuit 理论,Greg Yang 这边是 Tensor Programs. 整体来说都还是从某一块入手,如 Greg 说的,还没有一个万物理论来统一。还没有一个很好工具。
其他
OpenAI 做出 ChatGPT 也是很偶然的,没有人预测到,他们这一次赢了,之后又不一定了
盖茨一开始也挺怀疑的,直到去年八九月,看了GPT在各种考试测试上的结果,才一下改变了看法
Greg Yang 相关
沈老师继续登场,真是一个让人如沐春风的人。
上来介绍 Greg,先讲个小故事:
Greg 北京长大,比较小去了美国念书,在哈佛念数学本科,念一半,感觉要去实现音乐梦,跑出去当了两年 DJ. 后来还是觉得数学好,又回去继续搞数学,硕士转的计算机科学。找工作时一开始拿的 Google Brain 的 Offer. 然后丘成桐老师说,Google Brain?(搞理论就这么看不上搞工程?),别去了没啥意思,我直接给你推荐到沈向洋老师那边,试试微软。
沈向洋老师于是派出自己手下大将,某菲尔茨奖获得者来面试,给出了很高的评价。于是沈老师说 Google 给了多少钱,微软这边给你,加一块!
也不知道上面多少演义成分,反正是说得 Greg 都不好意思了。
Greg 的演讲内容主要就是 u-transfer 那篇论文,其他就没有给到太多信息了。
下台我问了他关于 GPT4 用到 u-transfer了吗,给出肯定回答。
文摘菌注:在原文章下,有读者评论:
u-transfer 背后是长达几百页的tensor program的论文,是深度学习时代针对过参数化这个classical statsitics无法触及的领域的一个理论革新。gpt4用了那真的说明美国理论和实践的转化能力简直变态。
继续问 4 用的 MoE,是否意味着他们在 MoE 这个维度,有相关的理论来指导可预测 Scaling,直接回答,不知道 GPT4 是不是 MoE.
关于教育体制
对谈时孙茂松老师提到为什么美国能做出 ChatGPT,我们却没有,是教育体制还少了什么吗。
Greg 说的点,还是比较赞同,那就是 Passion(热情),正因为 Passion,所以才能不停坚持去做。而到这个时候像是学历什么已经不太重要了。
这样的例子,能举出好几个,比如说算是 GPT 之父的 Alec Radford,本科毕业,凭着热情,从 GPT-1 没怎么受到关注开始慢慢做,到 2 爆了,再到 3 到 4,扭转了 OpenAI 内部整个方向;当然还有 Chris Olah,高中学历,现在已经是领域大佬了,凭着对可解释性的热情一路做下来,现在是 Anthropic 的老大。
现场环境
仿佛进了学生夏令营。
感觉就像求真书院搞的夏令营,除了前面几排,后面全是北京各高中名校学生,和求真书院学生。点孩子们问问题时,大多只能问些很泛问题,其中一个女孩直接给 Greg 这样被菲尔兹奖得主都没问懵的脑子给问懵了。
我感叹了一下北京孩子真是卷得飞起,这个年纪就来听这样讲座。
朋友后来提醒我,别笑,很可能后面几排就会出好几个未来大佬呢。等我老了,可能唯一能拿出手讲的就是,我 Andy,曾经和某某某一起听过 Greg Yang 的讲座。
神棍乱入
当我再三犹豫要不要举手时,第一排正中间,一名中年大叔举起了手,看着他微驼的背,标准理工男条纹衬衫,整齐地扎在黑色西装裤中,我先在心里点了个赞。
拿过话筒带着浓厚的口音:“老师我有一个问题!”
”来了!来了!“ 经历过前面 AI 过家家般的提问,非常期待一场巅峰对决。快,让 Greg 知道我们观众中还是有厉害人存在的。
现场所有的目光投向大叔,现场所有的摄像头也投向了大叔,相信所有看直播的观众们也都关注着大叔。
”请问...美国搞出来人工智能,我们能不能搞个神工智能,超过他们!“ 大叔的提问掷地有声。
却没有回响,迎来的现场漫长的沉默
搞一个神工智能吧,他说
我们搞个厉害的神工智能
遥远的美帝将被震碎
面前的人们此时呆若木鸡
有人应该憋笑了,因为台上也沉默着,孙茂松老师沉默许久,敷衍过去了。
但相信在场的每个人心中都有一个疑问,是谁给他的票?!
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有