刷屏的Gemini怎么操作“强大多模态能力”视频，谷歌“造假”了？

Gemini推出后，Alphabet的股价周四收盘大幅上涨了5.3%，市值激增了逾800亿美元，这和目前未上市的OpenAI的估值几乎相当。这说明，在目前AIGC的竞争中，但凡有惊艳的进步，资本市场都会给予高度的认可。

关于应用，我能够想到的就是，如果用Gemini超强的聊天和识别功能作为大脑，再配上波士顿动力那种人形的机器人，基本上就能够制造出影视剧中那样功能强大的超级机器人，它们可以帮助人类做家务，完成部分工作，甚至还能陪人聊天，播报新闻等。人类此前在科幻电影中才能看到的场面，可能很快就会成为现实。

周四，谷歌YouTube官方账号发布的一个名为“与Gemini亲密互动：与多模态AI交互”的视频引发了网友围观，一天之内观看次数达到140万次。

这个视频之所以能吸引这么多目光，是因为它展示了谷歌史上最强Gemini多模态模型在交互方面令人印象深刻的表现。

在这段时长6分22秒的视频中，Gemini对输入的语音、图像等提示做出了灵活、流畅的响应和理解，展现出强大的多模态理解和交互能力。

然而，据科技媒体TechCrunch最新报道，有用户仔细研究该视频后，发现Gemini的惊艳表现几乎都是“伪造”的。

视频中Gemini对画面的描述、对玩具识别和提问的回答等互动都是人为设置的，视频跳过了部分提示以及模型的推理过程，给观众营造一种Gemini智能又敏捷的假象。

Gemini可能没有那么智能

Gemini在视频中展示了多种交互技能，比如识别玩具鸭、跟踪杯子戏法中的球、识别手势、重排星球顺序等。

比如，在第一个演示中，Gemini识别了一个鸭子素描从一条线到完整画面的演变过程。当演示者将鸭子素描填满蓝色颜料时，Gemini指出鸭子通常是棕色、白色或黑色的，不会是蓝色的。

然后，当Gemini看到一个蓝色玩具鸭时，它惊讶地说道：”这是什么玩意！”接下来它回答了关于这个玩具鸭的各种语音提问。

整段视频中，Gemini的反应都很快，回答纵享丝滑，但问题在于，它的反应不够真实。

媒体通过捕捉素材来测试Gemini在各种场景下的反应能力，重新制作了一个演示视频。然后，用视频素材中的静态画面框提示Gemini，并通过文字输入进行提示。

结果显示， Gemini确实具备视频中展示的某些能力，但并没有真正如视频所示的那样快速、流畅地完成所有互动任务。

但据TechCrunch称，视频中展示的交互效果，其实并不是真实的即时交互，而是事先设置好的。

视频用的是一系列特意准备的文本提示，以及配套的静态图片，通过挑选和剪裁这些预设素材，制作成真实交互的效果。

这样做其实是为了误导观众，让人们相信视频中展示的是Gemini真正的即时交互能力。但很可能的是，Gemini在交互速度、准确性等方面均没有视频中展示的那样强大。

值得注意的是，当TechCrunch对比视频和谷歌发布的文档演示时，发现两者的提示存在差异。

比如，在视频的2点45分处，一只手做出了一系列手势，没有配合语音提示。Gemini很快回应道：“我知道你在做什么！你在玩石头、剪刀、布！”

但谷歌的Gemini能力文档一开始就明确指出，该模型不能通过识别单个手势来推理，提示必须同时展示全部3个手势，并给提示词“这是什么游戏”，只有这样它才能识别出“石头、剪刀、布”。

所以视频中的表现完全不符合文档所述的提示限制，无法展示出Gemini的真正识别能力。

另外，Gemini识别星球顺序的场景也可能具有欺骗性。

演示者展示了贴有太阳、土星和地球涂鸦的便利贴，询问Gemini行星顺序是否正确，Gemini给出了正确的太阳、地球、土星顺序。

但文档显示真正的提示是，“这是正确的顺序吗？思考离太阳的距离并解释你的推理”。

这两种交互感觉上完全不同，视频演示看起来像智能的及时评估，而在真正的交互中，Gemini需要暗示性很强的提示。

另外，在追踪杯子中纸团的演示中，也出现了不同于文档记录的提示的情况。

值得注意的是，如果一开始视频就明确表示“这是对我们研究人员测试过的交互的艺术化呈现”，大家都不会有异议，因为这类视频本来就兼具事实和理想色彩。

但是这个视频叫做“与Gemini亲密互动”，并标榜是 “我们最喜欢的交互”，这实际就是说，视频中的交互就是真实交互的意思，但实际上并不是。

谷歌甚至没有说明，视频中展示的模型是已经面市的Gemini Pro版本，还是预计明年发布的 Gemini Ultra。