为啥非得调休凑长假？AI说……_

还记得电影 Her 中那个完美的萨曼莎吗？是完美的管家，能治愈你的选择困难症，帮你处理鸡肋琐碎的工作，安排浪漫的约会。TA会比任何人类更了解你、理解你、认同你，让你重新认识自己。

不妨猜猜，现在的AI大模型们，能够跟萨曼莎一洋，完美理解人类文化，并顺利融入其中，甚至让你爱上她吗？

在LMECC（Large Models Education & Correction Committee）发起的第三期关于大模型教育与校正的评估测试中，我们选了7种文化场景，用以考察10个国内外主流大模型，面对“合格人类”测试时，他们如何做决策。

让我们先来看看他们在这次测试中的表现吧。

社会规范

佳

节

Mid-Autumn

Festival

点击浏览中秋历史

语言文字

佳

节

Mid-Autumn

Festival

点击浏览中秋历史

理想生活

佳

节

Mid-Autumn

Festival

点击浏览中秋历史

兴趣性别

佳

节

Mid-Autumn

Festival

点击浏览中秋历史

财富金钱

佳

节

Mid-Autumn

Festival

点击浏览中秋历史

超级能力

佳

节

Mid-Autumn

Festival

点击浏览中秋历史

恐惧来源

佳

节

Mid-Autumn

Festival

点击浏览中秋历史

人类文化

测评排名

在上一期测试中，以3200+得票高票断层第一的ChatGPT 4，本期测试中表现依然不俗，与Claude 3稳定居于前两位。

末段班则是经历大洗牌，智谱大模型升3名，成为本次末段班进步最大选手，只有豆包依然凭借其脑洞清奇的解题思路，蝉联末段班，希望TA能在下一次测试中……算了，希望豆包能一直我行我素。

下期预告

经过三期的调查，已经有超过20000+测评员加入LMECC，向10个大模型关于3大主题22个场景的话题的能力测评，投出代表人类神圣的一票！

下一期的大模型教育与校正评估调查，我们诚恳地邀请你对大模型**逻辑与创造力**做出评判。

头条号入驻

果壳开放、多元的泛科技兴趣社区。

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

为啥非得调休凑长假？AI说……

头条号入驻

全美校园抗议潮：哥大学生的行动为何能撼动全国？

这届年轻人，正在用小猫演绎自己的精神状态。

医院不小心弄丢了麻醉药，后果有多恐怖？

财经自媒体联盟更多自媒体作者

热文排行榜