这两天如果你还把 GPT Image 2 当成“又来了一个更强的生图模型”,那我觉得有点看轻它了。
我真正盯着看的,不是它又把画质往上抬了多少,也不是社交平台上又冒出多少“看起来像真的”截图。
而是另一件更值钱的事:它开始被接进工作流了。
这一步一旦走通,味道就完全不一样了。
以前很多生图模型,最大的问题不是不能看。
是不好接。
你单独打开一个网页,输提示词,出一张图,惊呼一下,发个朋友圈,这当然也算“能用”。
但真到日常干活的时候,问题马上就来了:图要不要反复改?能不能放进现有流程?和写作、代码、页面、文档、自动化任务能不能串起来?
一旦开始问这些,很多“很强”的模型,立马就没那么强了。
所以这次我对 GPT Image 2 的判断,其实挺直接。
它最值得看的,不只是成图能力,而是它正在从“单点体验”往“工作流组件”走。
这件事,Hermes 和 Codex 这两边的变化,刚好能看得很清楚。
先说结论
如果你只是想偶尔玩一玩图片,GPT Image 2 当然也有吸引力。
但如果你平时就在折腾 Agent、自动化、内容生产、前端页面、产品原型,那它现在真正吓人的地方,不是更会画了,而是更容易被接进你的主力工具链了。
这才是我觉得它这次“不太一样”的原因。
GPT Image 2 这次放开的,不只是一个模型名
我翻了 OpenAI 开发者文档,这次给得其实已经很明确了。
官方写的是:最新的 gpt-image-2,现在既可以走 Image API,也可以走 Responses API。
这两个入口的差别,不只是接口名字不同。
它背后代表的是两种完全不同的使用姿势。
如果你只想根据一句提示词直接生成一张图,那走 Image API 就够了,简单,直接,适合单次出图。
但如果你想把图片生成放进多轮对话、放进 Agent 流程、放进连续修改任务里,那 Responses API 才是更关键的那个入口。
因为它支持把图片生成当成工具来调用,还支持多轮编辑、带着上下文继续改,甚至还能用 previous_response_id 接着前一轮往下走。
这意味着什么?
意味着以后“先写文案,再出图,再改图,再把图塞进页面或文档”这种事,不用再拆成五六个孤岛动作了。
模型、图片、上下文、任务流,开始能接起来了。
这个变化,比单纯讨论“它比谁更清晰”“它比谁更有氛围感”,重要得多。
因为画得再好,如果接不进流程,最后也容易沦为演示。
Hermes 这一侧,最大的价值不是花样更多,而是入口更顺了
Hermes 这边我最近也一直在看。
它之前最容易把人劝退的,说白了就一句话:能力很多,真接起来有点累。
搜索一套,出图一套,浏览器一套,语音再来一套。
Agent 还没开始认真干活,人先在配钥匙了。
但 0.10.0 这一轮之后,Hermes 已经把 image generation 明确放进自己的工具层里了。
从公开文档看,Hermes 现在的 image generation 已经是标准能力,能走 FAL,也能走 Nous 的 Tool Gateway。官方 release note 里也明确把 image generation 列进了 Gateway 的四大能力之一,和 web search、text-to-speech、browser automation 放在同一层。
这件事表面上看像是“又多了一个工具”。
实际上不是。
它真正值钱的地方,是把图片生成从外挂,往内建能力挪了一步。
这一步很关键。
因为一旦生图能力进入统一工具层,后面它就不再只是“顺手玩一下”的功能,而是可以跟检索、浏览器操作、写作、总结这些动作接成链路。
比如一篇内容稿,先查资料,再整理观点,再顺手生成配图。
比如一个产品方案,先梳理需求,再补一张示意图。
比如一个自动化任务,前面几步都是文字和网页,最后一步直接把封面图吐出来。
这种体验,和以前专门跳去另一个站点生图,再把图拖回来,差别真的很大。
当然,这里我也得说实话。
Hermes 当前公开文档里,明确列出来的是 fal-ai/gpt-image-1.5 这类模型入口,Tool Gateway 也已经把 image generation 作为统一能力接进来了。换句话说,Hermes 这边最重要的进展,是图像生成已经进入它的工具链框架,接下来官方模型层继续往 GPT Image 2 跟进,反而更像时间问题。
我个人会把这理解成:路已经铺好了。
而且是主路,不是小路。
Codex 这一侧,更吓人的是“图片开始进入 Agent 工作流”
很多人看到 Codex,第一反应还是写代码。
这当然没错。
但如果你看最近 OpenAI 开发者文档和 Codex changelog,会发现它正在往更完整的工作台走。
尤其是这轮更新之后,Codex 一边在补 in-app browser、computer use、artifact viewer 这些能力,一边 OpenAI 又把 image generation 明确做成了 Responses API 里的工具能力。
这两个信号放在一起看,就很有意思了。
它不再只是“会写代码的助手”。
而是越来越像一个能处理多模态任务的 Agent 工作台。
文档里写得很清楚:在 Responses API 里,图片生成可以作为内置工具被调用;不仅能生成,还能在多轮上下文里持续编辑;需要的时候还能强制 generate 或 edit。
这意味着什么?
意味着 Codex 这类以任务流为核心的产品,后面接 GPT Image 2,不是“能不能做”的问题,而是“会做成什么体验”的问题。
这才是重点。
因为对真正干活的人来说,最烦的从来都不是模型不够强。
而是流程割裂。
你写了一段 landing page 文案,接着要做配图。
你画了一个产品说明页,又要补几张插图。
你让 AI 改前端页面,结果还得自己另外找地方做 hero image。
这种来回切换,特别伤流畅度。
一旦图片生成被放进同一条任务链里,很多事情就顺了。
写、改、看、调、出图,可以在一个上下文里连续发生。
这个体感差异,不是“多了一个功能”能概括的。
这是工作方式在变。
所以我为什么觉得这次更值得认真看
因为它说明了一件事:
生图模型这条线,已经开始从“比效果”走到“比接入”。
前几年大家卷的是谁更像,谁更快,谁更惊艳。
现在这些当然还重要。
但对真正长期用工具的人来说,已经不够了。
接下来更值钱的判断标准,我觉得至少有三个。
第一,能不能稳定进入工作流。
第二,能不能支持连续修改,而不是每次都重新开一局。
第三,能不能和文字、网页、代码、文档这些任务自然串起来。
谁先把这三件事做好,谁就更像主力工具。
谁只会出几张“哇塞”的图,最后大概率还是停在展示层。
这也是为什么我会觉得 GPT Image 2 这次更危险一点。
不是因为它又赢了一张海报。
而是因为它正在被接进真正的生产链条。
哪些人现在最该盯着它看
如果你是下面这几类人,我觉得这波要认真看,不是看热闹。
第一类,做内容的人。
尤其是那种平时既要写字,又要配图,还要反复改封面和插图的人。你会很快感受到,图像能力一旦进入同一套工作流,省下来的不是一步,而是一串动作。
第二类,做产品和前端的人。
很多页面工作,本来就不是纯代码问题,而是文案、结构、视觉、截图、插图混在一起的问题。图片生成如果能直接挂进任务流,很多事就没必要拆开做了。
第三类,折腾 Agent 和自动化的人。
这一类人最该看的,从来都不是“模型榜单”。
而是“哪个能力终于能接进链条了”。
因为一旦接进去,后面能玩的就不是一个功能,而是一整套流程。
反过来讲,如果你现在只是偶尔随手出图,没连续修改需求,也没有工作流整合需求,那倒不用急着吹得太猛。
你可能只会觉得:嗯,图更好了。
但这还不是它最狠的地方。
我自己的判断
我现在越来越觉得,下一阶段真正能打的生图模型,比的已经不是谁更像设计师。
而是谁更像基础设施。
能不能被接进 Agent。
能不能被接进工作流。
能不能在连续任务里不掉线。
这三件事,比再多几张惊艳样片都更值钱。
所以 GPT Image 2 这次在我这里,意义并不只是“OpenAI 又发了个更强的生图模型”。
而是它把一个信号放得很明确:图片生成,正在从展示能力,往主流程能力里挤。
Hermes 这边,工具层已经铺路了。
Codex 这边,Agent 工作流也已经把图像生成纳进来了。
这就不是小修小补了。
这说明生图这件事,正在从“单独玩”变成“顺手用”。
而一旦一个能力开始变成“顺手用”,它离真正普及,通常就不远了。
如果你问我这波该怎么看,我的答案很简单。
先别只盯着它画得有多好看。
先看它是不是已经开始悄悄进入你每天会用的那条链路。
这个变化,才更大。