2023 年 3 月 14 日, GPT-4 发布。自那一天之后,就好像打开了潘多拉魔盒一样,各种 AI 大模型就跟开大会,前后脚地发布。
从号称 OpenAI 杀手的 Claude ,到比 GPT 热度还高的 Auto GPT ,再到国产的文心一言、通义千问等等。这股井喷速度,多少让人有些眼花缭乱了。
结果还没歇两天,差评君又遇到了一个非常特殊的参赛选手。
![](http://k.sinaimg.cn/n/sinakd20230428s/687/w640h847/20230428/92e9-e50e8e4581c14792c3ac49163ba1dbe9.jpg/w700d1q75cms.jpg)
这家公司,你甚至想不到一个标签去定义它。
按理来说,它是游戏起家的,手握《 海岛奇兵 》、《 皇室战争 》的发行权。
但它搞起浏览器也很有一套,欧洲的老牌浏览器 Opera ,被它在海外玩的风生水起。甚至 2018 年的时候,在纳斯达克上市了。
做起社交软件来,思路也很清奇。旗下的音乐社交平台 StarMaker,在海外默默做了 6000 多万用户。
曾经控股的同性社交平台 Grindr ,出售后帮他们一把赚到了 30 多亿。。
![](http://k.sinaimg.cn/n/sinakd20230428s/215/w640h375/20230428/3b10-9f03b4ec6ce16697d89075b1515ea43c.png/w700d1q75cms.jpg)
相信肯定很多朋友已经猜到,差评君这次要介绍的是谁了。
就是那个总是被人调侃忘了游戏老本行的昆仑万维,这回似乎他们又往舒适圈外面,迈了一大步。
早在去年,他们就一次性拿出了绘画、编程、音乐和文本四大板块的 AI 成果。当时,差评君还带大家体验了一把它们的 AI 绘画。
当时天工巧绘画的小黑胖。。
![](http://k.sinaimg.cn/n/sinakd20230428s/480/w640h640/20230428/e04c-01d9549bc04c07dede4203057177e5d5.jpg/w700d1q75cms.jpg)
而这一次,他们又带来了和 AI 团队奇点智源合作的大语言模型——天工。
天工算是昆仑从 2021 年起,研究 AI 模型到现在所有心血的集大成者,前前后后烧掉了能有几个亿。
在 4 月 17 日的产品演示直播上,昆仑就直接现场实测了天工。
首测敢直接上手,真是相当有底气和魄力了。
![](http://k.sinaimg.cn/n/sinakd20230428s/129/w640h289/20230428/5ebb-889848068bcf3c856b0efdee63768175.png/w700d1q75cms.jpg)
这回,差评君也是很幸运地拿到了天工的测试资格。
下面就让我们上手测试一下,这个烧掉了这么多钱的“ 宝贝儿子 ”,到底能有几斤几两。
![](http://k.sinaimg.cn/n/sinakd20230428s/200/w640h360/20230428/e62b-02647870f0ec23f6bdd2e128f5b2ff2f.jpg/w700d1q75cms.jpg)
不过,这回测试,咱们稍微整点不一样的。
测了那么多大模型,对比来,对比去的,说到底还是为了提升效率。
毕竟,要是根据 OpenAI 创始人的说法,这 AI 继续发展下去,以后咱们可就是全部不用工作了。
所以,这次我们就落到实地,看看这些烧了几亿的大模型,到底能省多少力。
在正式测试开始之前,咱们要先摸底考核一下。
作为一个大语言模型,需要具备的基本功有两项,一个是学习,一个是持续对话。只有这两项能力过硬,模型的使用感才会好。
首先是学习能力的测试。这里,差评君教了天工一套我自创的规则。
给它一些正向情绪的语句,并且把这个语句标注为 “ 0 ” ,负面情绪的语句则标注为 “ 1 ” 。然后,再给它几个语句,让它做标注。
结果,效果不错,天工确实是准确地给出了正确的标注,说明它学会了我的规则。
第一关考核通过。
![](http://k.sinaimg.cn/n/sinakd20230428s/635/w640h795/20230428/408b-10ebddb95cc2cc992844f41c17055d45.png/w700d1q75cms.jpg)
让我们考试继续,看看它能不能做到多轮对话。
差评君连续地问了天工几个问题,它基本能结合上下文回复我。说明天工是能做到多轮对话的。
不过,差评君觉得这个程度,还不够。咱们给天工,再加上点难度。
![](http://k.sinaimg.cn/n/sinakd20230428s/702/w640h3262/20230428/60b0-1d9a47b4ba372390931e64cb35121600.png/w700d1q75cms.jpg)
之后,差评君又向天工咨询了宠物饲养的问题。并且,在交谈中,我无意中跟它透露了, “ 我不希望和小明家一样养狗 ” 这个信息。
![](http://k.sinaimg.cn/n/sinakd20230428s/757/w640h117/20230428/1aac-531a230d11bac34ca8a136fabd7af1ab.png/w700d1q75cms.jpg)
之后,又多次问了其它问题,比如养猫需要的注意事项。在几轮对话之后,我重新问了天工:
小明家养了什么宠物?
虽然,天工一开始没反应过来,但是稍加引导,它立刻回忆起来前面我提供的信息,并告诉了我正确答案。
![](http://k.sinaimg.cn/n/sinakd20230428s/221/w640h381/20230428/c7ce-1b732bf4c38c89c34ac151ec6d97bdb1.png/w700d1q75cms.jpg)
更让差评君比较诧异的是,同样的问题,当我问 ChatGPT 的时候,却把它难住了。
![](http://k.sinaimg.cn/n/sinakd20230428s/251/w640h411/20230428/f243-146cea5983d00bed960ab0f208cf4e3c.jpg/w700d1q75cms.jpg)
甚至是目前大模型里的尖子生 GPT-4 ,居然都没有办法做对。。
在我引导下, GPT-4 甚至已经追溯到了有信息的提问段落,但是没有办法理解 “ 小明养的宠物是狗 ” ,这么一个简单的事实。
![](http://k.sinaimg.cn/n/sinakd20230428s/292/w640h452/20230428/aaee-e28508918a061f275fedec4ad5920aeb.jpg/w700d1q75cms.jpg)
之所以天工能做到,是因为它支持 20 轮以上的对话。而且,不仅仅是长对话,它还能做到理解语义和记忆上下文,这些进阶技巧。
看来天工这小子,基本功夫相当扎实,是能处的。
摸清了底之后,我们就能开始正式的测验了。让天工代替一下差评君的工作,测测它是不是块写作大师的料。
![](http://k.sinaimg.cn/n/sinakd20230428s/49/w640h209/20230428/11ca-6fc1ab090f509d726e0decbfeed644ac.jpg/w700d1q75cms.jpg)
差评君拿了最近在想的一个选题—— “ 测谎仪到底有没有用?” ,让天工试试手。
因为影视作品里很多时候,把这玩意搞得神乎其乎的,甚至有国家,还把测谎仪当成法庭上的证据。
那我就好奇了,测谎仪到底有没有用呢?
![](http://k.sinaimg.cn/n/sinakd20230428s/348/w640h508/20230428/9fed-c96279ee4e1ded7281bedcfda63d1725.png/w700d1q75cms.jpg)
天工告诉了我答案:测谎仪会受到很多因素影响,并不能肯定一个人是否说谎。
那为什么还有国家会使用它?又是谁发明了测谎仪呢?
带着这些疑问,让我们继续下去。
![](http://k.sinaimg.cn/n/sinakd20230428s/490/w640h650/20230428/0e2a-76cb845805c079e353af0e3dc22b4016.jpg/w700d1q75cms.jpg)
为了解释清楚测谎仪的前世今生,我让天工围绕测谎仪,帮我列一份大纲。
几秒钟之后,一份脉络清晰的大纲就被生产出来了。
从测谎仪的原理、历史、应用以及争议几个方面来解答这个选题,基本上和差评君平时写文章的路线差不多。
稍微有点惊喜的是,它帮我考虑到了在不同类型案件中,测谎仪可能会有不同的使用范围。
![](http://k.sinaimg.cn/n/sinakd20230428s/630/w640h790/20230428/4600-0047401fd7c2453ae6d05a80491c6d5b.png/w700d1q75cms.jpg)
但这还不是极限,我们可以让天工,进一步细化这份大纲。
比如,差评君让它详细讲述了一下,在案件中嫌疑人是怎么使用测谎仪的。
天工基本能分点罗列出来了,逻辑上来讲是挺清晰的。就是文字处理,有点像百度百科的介绍,能读,但是不出彩。。
不过,它倒是贴心地反复提醒差评君,测谎仪这玩意不准的,生怕我上当受骗。
![](http://k.sinaimg.cn/n/sinakd20230428s/301/w640h461/20230428/106e-9ab7efe1956907f781462607d9792e5c.png/w700d1q75cms.jpg)
一些外文的资料,我也可以直接丢给天工去翻译。
比如这段维基百科里对测谎仪的介绍,天工基本上几秒钟就翻译好了。
通过天工翻译后的内容,我们能知道在测谎仪的程序里,会有测试员故意要求被测者撒谎,以此来证明测谎仪有用。
![](http://k.sinaimg.cn/n/sinakd20230428s/240/w640h400/20230428/2219-f2978fa526e68a1bb47a86df2c91e892.png/w700d1q75cms.jpg)
甚至,差评君发现天工还能当做整理助手使用。
丢一段文字给它,天工能分析数据和信息,一键总结成表格。比如测谎仪的检测,主要是靠呼吸频率、血压心压、皮肤抗性。
这样一来,原本复杂的资料,就被梳理的很清晰了,能大大节省消化资料的时间。
![](http://k.sinaimg.cn/n/sinakd20230428s/682/w640h842/20230428/1407-d56fb2b82a418291f4977eb6902482a4.png/w700d1q75cms.jpg)
不过,当给天工的数据一多,它很容易会处理卡壳。就需要人工去梳理,这样一来二去,效率上有点拉了。
![](http://k.sinaimg.cn/n/sinakd20230428s/610/w640h770/20230428/f126-b21f8d21c3fd8ea461fd8913c9be7ff7.png/w700d1q75cms.jpg)
但总的来说,在文本生成方面,天工算是有两把刷子在身上。尤其是表格整理,差评君觉得相当实用了。
不过,光有文本能力还不够,逻辑、代码、数学题等基础测试,差评君也给天工安排上了全套。
测试第一轮代码题的时候,天工的表现还是很不错的。差评君用一句话,让天工帮我做了一个简单的小网站。按钮变动的大小和效果,页面和按钮颜色,都做对了。
黑色的网页中间,有一个蓝色的圆形按钮,当鼠标移动到按钮上,按钮会缓慢放大
![](http://k.sinaimg.cn/n/sinakd20230428s/162/w640h322/20230428/583c-gifdd0f042ae95927388337f74c0de427c9.gif/w700d1q75cms.jpg)
就是不知道为什么,最后有点画蛇添足。天工在代码中,多写了一行位移效果,导致按钮放大的同时,还出现了漂移。
![](http://k.sinaimg.cn/n/sinakd20230428s/188/w640h348/20230428/598a-e41dde07bbeb9dfc94541610c825b5ad.jpg/w700d1q75cms.jpg)
但到了第二轮的数学题测验,天工慢慢就有点吃不消了。
面对题干里的各种数据和条件,天工蒙圈了。它一直纠结在了,青蛙跳 3 米花的时间上。。
谢谢你,把我的时间规划到了小数点后两位
![](http://k.sinaimg.cn/n/sinakd20230428s/342/w640h502/20230428/965c-fe179852050c94e114236861b5ee6c29.jpg/w700d1q75cms.jpg)
后面,差评君又试着问了经典的鸡兔同笼问题,天工也是在带入方程的时候,计算错误了。
看来很可能是因为数学题的变数太多了,大语言模型很容易在某一步出错。
![](http://k.sinaimg.cn/n/sinakd20230428s/430/w640h590/20230428/da7e-f0cb6fa1dade2d3add537e801959bf8f.jpg/w700d1q75cms.jpg)
所以,当天工遇上变数更多,逻辑更诡异的逻辑题时候,就容易在题目的陷阱里中招。
比如当我问,A 参加跑步比赛,刚刚他超过了第三名,请问他现在是第几名?
天工给了我正确的回答,A 现在是第三名。
![](http://k.sinaimg.cn/n/sinakd20230428s/148/w640h308/20230428/7011-15867a81764b6406b3507686ec5b2b1d.jpg/w700d1q75cms.jpg)
可当我们换一种问法,就会发现天工的逻辑不适用了。
![](http://k.sinaimg.cn/n/sinakd20230428s/171/w640h331/20230428/b1f0-fc0dcbdd1faf93d3e6d9ba418ecf0bc2.jpg/w700d1q75cms.jpg)
但总的来说,天工有强项,也有弱项。
在逻辑和数学能力上,可能还需要打磨打磨。但在,文科方面,天工还是能拿得出手的。
尤其是多轮对话、制作表格、提高写作效率各方面,已经可以一定程度上解放人力。
而且,就在差评君拿到测试资格的几天里,天工一直在不断地迭代更新。不仅在各种问题处理上也肉眼可见的进步,而且资料库更新很快。
虽然天工是不联网的,但我试探性地问了几个顶流国宝的问题,它居然都能对上。
![](http://k.sinaimg.cn/n/sinakd20230428s/583/w640h743/20230428/08aa-8384ab018a33b742f8791819dcb6da45.png/w700d1q75cms.jpg)
连热腾腾的淄博烧烤梗,天工这小子居然也门清。
![](http://k.sinaimg.cn/n/sinakd20230428s/77/w640h237/20230428/c88b-ae356a89b1ac9e528dac104580bbc443.jpg/w700d1q75cms.jpg)
如此快的更新迭代速度,都是国产 AI 模型互卷带来的结果。
在差评君看来,这是个好事。只有井喷的局面出现,才会加速缩短我们与 OpenAI 的差距。
而这一次,昆仑万维作为一个新生,但是有水平的玩家,加入了战局。
![](http://n.sinaimg.cn/finance/pc/cj/kandian/img/article_pic05.png)
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有