Google最新推出的Nano Banana Pro在图像生成上大幅提升。它支持高分辨率、精细文字渲染、搜索校准、多图参考和思考模式,能解决复杂创作任务,也能自动标记AI生成内容。

Nano Banana Pro,也叫做Gemini 3 Pro Image,是目前最强的图像生成模型之一。它跟本周刚亮相的Gemini 3 Pro关系密切,只是专注于图像生成。我提前试用了几天,这个模型的能力令人惊讶。

Google在API文档里给出了关键细节,常常也是最实用的地方。这个模型设计用来处理高难度的创作流程,具备逻辑推理能力,能处理多轮创作与修改任务。

它支持原生一千、一千九百二十和四千分辨率的输出。还能把文字直接渲染进图像里,字体可读,还能带风格,适合做信息图、菜单、示意图或宣传图。它还能调用Google搜索,把实时信息用于图像生成,例如天气图、股价图或最新事件,用来提高内容的真实性。

它的思考模式比较特别,会在后台生成若干张“思考图”,用来推敲构图,这些图不会计费,最终再输出高质量结果。

更关键的升级是它最多能接入十四张参考图。用户可以上传多张物体照片保持质感一致,也可以加入多张人物照片确保角色一致性。

Google公布的模型卡指出,相比前一代Nano Banana,它新增的能力包括多角色编辑、图表编辑、文字编辑、教育场景中的事实校验、多图输入、信息图制作、涂鸦编辑和视觉设计等。

几天前Max Woolf刚写了关于Nano Banana提示词的完整指南。我把他的示例提示词直接丢进新模型,要求输出四千分辨率的图像。新模型并不便宜,四千分辨率一张要二十四美分,一千或两千分辨率要十三点四美分。输入图像按每张零点一一美分收费。早期页面写错成六点七美分,现在已经修正。此外,它不像Google其他模型那样能免费在AI Studio中使用,必须配置付费API密钥。

我继续测试它的文字渲染。用Gemini消费者应用的思考模式,让它做一张信息图。提示词只有九个字,内容是解释Datasette这个开源项目是怎么工作的。我也想测试它的搜索功能是否能辅助生成。

Nano Banana Pro是目前最好的生图模型

它生成的结果非常惊艳。文字正确,排版清晰,内容也靠谱,还自动画上常见的发布平台的图标,甚至画了Datasette界面的缩略图,看起来像极了真实信息图。只有“Data Ingestion Read Only”这一项不太准确,其余都很稳。

它的生成过程有详细的思考记录。模型先确定结构,规划数据从不同来源导入,再转成SQLite数据库,然后展示成网页界面和JSON输出。接着画出插件生态和部署方式,用图标展示每一步。它反复修改结构,让流程更清晰,关系更连贯。这种思考过程贯穿整张图的构建。

Google在发布中还强调了一个重点:所有由Google工具生成的媒体都会嵌入不可感知的SynthID数字水印。现在用户可以直接在Gemini应用里上传图像,请模型判断是否由Google AI生成。未来会扩展到音频和视频。

昨晚我用Nano Banana Pro生成了一张浣熊偷外卖的假照片,然后用苹果照片里的清理工具把水印的小菱形图标抹掉。我把这张图上传到Gemini应用并询问它是否为AI生成。

Nano Banana Pro是目前最好的生图模型

它回答检测到图片有百分之二十五到五十带有水印。推测是因为大部分照片是我拍的,只有浣熊部分由模型生成,所以水印只覆盖那一部分。

Nano Banana Pro的能力变化巨大。高分辨率、复杂推理、多图参考、实时搜索以及精细排版,让它能胜任许多过去需要人工介入的任务。随着工具和检测系统一并推出,AI生成与内容真实性之间的关系也变得更透明,未来的图像创作会更像人与模型共同协作。

本文译自 simonwillison,由 BALI 编辑发布。


2025王摸鱼秋款卫衣,玩梗系列