大模型玩你画我猜:Claude6局3胜,GPT-4o表现迷惑
原标题:大模型玩你画我猜:Claude6局3胜,GPT-4o表现迷惑
导读:
文韩梦想一句话形容看完周处除三害后的感受只能是太好看了即使在公映前历经了删减换盘这部电影依然给当下的内地大银幕带来了一针强心剂极致地演绎了爽片的另类...
文韩梦想一句话形容看完《周处除三害》后的感受,只能是:太好看了!即使在公映前历经了删减换盘,这部电影依然给当下的内地大银幕带来了一针强心剂,极致地演绎了爽片的另类范本。《周处除三害》我们以往对「大银幕爽片」的认知,一般基于两种模式,一种是「强者制弱」,即对立双方力量悬殊,强者一般代表着正义一方...
奇月 发自 凹非寺
量子位 | 公众号 QbitAI
一群大模型玩你画我猜,人类一旁围观超起劲儿。
就像下面这张图展示的,由Grok画长颈鹿,一堆大模型根据生成内容猜 。参赛选手包括GPT-4o、Claude、Llama、Gemini、Grok等。
其实这是最近爆火的一种新的 基准(doge)。
游戏结果一定程度上能反映出大模型能力,比如这组 一共进行了6局游戏,表现 的是Claude:它赢了3次!
GPT-4o表现有点抽象。就它画的这龙卷风,人类也看不懂。
不止如此,在很多轮游戏中,其他模型都在认认真真地答题,而它的 个回答经常是Circle??有点子抽象。
所以有人就说,这游戏可以当 基准来用啊。
还有人表示,AI照这个速度发展,人类就只能当围观的瓦力了。
在比较简单的题目上,所有模型都在一两个回合中就猜对了 ,比如下面的房子:
还有 简洁的草地、海洋:
动物主题相对复杂一些,模型们一般需要猜4-5轮,比如大象这题:
游戏整体效果 棒,网友们也是好评如潮:
模型画画早已不是新鲜事,但让大模型玩你画我猜?这天才想法是怎么产生的?
首先,不得不提到Simon Willison的一次 ,他让所有模型绘制自行车上有一只鹈鹕主题的图像,然后进行效果对比。
随后Paul Ca raft看到 ,他产生了一个想法:这样一个个比对太慢了,效果也不好,既然都画同一个主题,为什么不让大模型玩你画我猜的游戏呢?
没想到这位小哥说干就干,1天后就发布了“你画我猜”的0.0.1版(这令人羡慕的执行力)。
游戏中,他设定回答的模型每2秒猜测一次,回答更快的模型会更快返回 。
不少网友表示,之前大模型在《我的世界》里面 盖楼,令人印象深刻,而你画我猜可能成为新的视觉benchmark!
还有人热心地提出了优化建议,比如以答对互相题目的速度作为 准则,或者加入人类成绩作为参考。
还有人提议将游戏变成对抗式训练,这样大模型会进步更快。
不过,抛去趣味性,也有网友持负面观点,表示不理解这个项目的意义。
有网友调侃说,这个游戏的作用就是成为未来AI考古时的文物,帮助它们了解自己的起源。
好嘛,咱们AI有自己的洞穴壁画(doge)。
不过,游戏化学习(Learning through play)其实是教育理论和心理学中的一个重要术语。
多位网友表示,小孩子也是通过玩游戏来提升智力、学习技能的,或许这可以成为训练大模型的新方式。
虽然这次只有6轮游戏,参与的模型也有限,但确实是一次很有趣的实践。
作者Paul Ca raft也表示会继续更新这个游戏,包括分数显示、更多的游戏主题等等,期待更多后续!
参考链接:
[1]https://twitter.com/ ul_cal/st us/1850262678712856764
[2]https://www.reddit.com/r/singula ty/comments/1gcval0/llm_pictionary/
[3]https://x.com/simonw/st us/1849854290153939171