该公司的演示视频展示了与Gemini的语音对话,它实时识别绘画,但这个视频经过了编辑,没有涉及真实的语音提示。

Google刚刚宣布了Gemini,这是它迄今为止最强大的人工智能模型套件,但该公司已经被指控对其性能撒谎。

彭博社的一篇专栏文章称,Google在最近的一段视频中误导了Gemini的能力。Google在本周早些时候的发布会上播放了一段令人印象深刻的“什么玩意儿”亲身体验的视频,专栏作家Parmy Olson说,视频中的Gemini似乎非常有能力,也许太有能力了。

这段六分钟的视频展示了Gemini的多模态能力(例如,语音对话提示和图像识别相结合)。Gemini似乎能够快速识别图像,甚至是连线图,能够在几秒钟内做出回应,并且能够实时跟踪杯子和球游戏中的一团纸。当然,人类可以做到所有这些,但这是一种能够识别和预测下一步会发生什么的人工智能。

但是,点击YouTube上的视频描述,Google有一个重要的免责声明:

“为了演示的目的,延迟已经减少,Gemini的输出也已经缩短。”

这就是Olson不满的地方。根据她在彭博社的文章,Google在被要求发表评论时承认,视频演示并没有在真实的语音提示下实时进行,而是使用了原始视频的静态图像帧,然后写出了文本提示,让Gemini做出回应。“这与Google似乎在暗示的完全不同:一个人可以与Gemini进行流畅的语音对话,而Gemini则在实时地观察和回应周围的世界,”Olson写道。

为了公平起见,公司经常编辑演示视频,尤其是许多公司想要避免现场演示带来的任何技术故障。稍微调整一下是很常见的。但是Google有着可疑的视频演示的历史。人们怀疑Google的Duplex演示(还记得Duplex吗?那个打电话给理发店和餐馆预订的人工智能语音助手)是不是真的,因为视频中缺乏明显的环境噪音和过于乐于助人的员工。而且,人工智能模型的预先录制的视频往往会让人更加怀疑。还记得百度推出了Ernie Bot,用编辑过的视频,然后股价暴跌吗?

在这种情况下,Olson说,Google是在“炫耀”,为了误导人们,让他们忽略Gemini仍然落后于OpenAI的GPT这一事实。

Google不同意这一观点。当被问及演示的真实性时,它指引了The Verge一篇来自Oriol Vinyals的文章,他是GoogleDeepMind的研究副总裁和深度学习负责人(也是Gemini的联合负责人),文章解释了团队是如何制作视频的。

Vinyals说:“视频中的所有用户提示和输出都是真实的,为了简洁而缩短了。”“视频展示了用Gemini构建的多模态用户体验可能是什么样子。我们制作它是为了激励开发者。”

他补充说,团队给了Gemini图像和文本,并要求它通过预测下一步会发生什么来做出回应。

这当然是一种处理这种情况的方法,但它可能不是Google的正确方法,因为Google已经在公众眼中显得被OpenAI今年的巨大成功打了个措手不及。如果它想要激励开发者,不是通过精心编辑的炫酷视频,这些视频可以说是误导了人工智能的能力。而是通过让记者和开发者真正体验产品。让人们在一个小型的公开测试中用Gemini做一些愚蠢的事情。让我们看看它到底有多强大。

本文译自 The Verge,由 BALI 编辑发布。

[ 广告 ]
赞一个 (8)

PREV :
NEXT :