GPT Image 2 全量放开后，我更在意的是：Hermes 和 Codex 都开始把它接进工作流了

这两天如果你还把 GPT Image 2 当成“又来了一个更强的生图模型”，那我觉得有点看轻它了。

我真正盯着看的，不是它又把画质往上抬了多少，也不是社交平台上又冒出多少“看起来像真的”截图。

而是另一件更值钱的事：它开始被接进工作流了。

这一步一旦走通，味道就完全不一样了。

以前很多生图模型，最大的问题不是不能看。

是不好接。

你单独打开一个网页，输提示词，出一张图，惊呼一下，发个朋友圈，这当然也算“能用”。

但真到日常干活的时候，问题马上就来了：图要不要反复改？能不能放进现有流程？和写作、代码、页面、文档、自动化任务能不能串起来？

一旦开始问这些，很多“很强”的模型，立马就没那么强了。

所以这次我对 GPT Image 2 的判断，其实挺直接。

它最值得看的，不只是成图能力，而是它正在从“单点体验”往“工作流组件”走。

这件事，Hermes 和 Codex 这两边的变化，刚好能看得很清楚。

先说结论

如果你只是想偶尔玩一玩图片，GPT Image 2 当然也有吸引力。

但如果你平时就在折腾 Agent、自动化、内容生产、前端页面、产品原型，那它现在真正吓人的地方，不是更会画了，而是更容易被接进你的主力工具链了。

这才是我觉得它这次“不太一样”的原因。

GPT Image 2 这次放开的，不只是一个模型名

我翻了 OpenAI 开发者文档，这次给得其实已经很明确了。

官方写的是：最新的 gpt-image-2，现在既可以走 Image API，也可以走 Responses API。

这两个入口的差别，不只是接口名字不同。

它背后代表的是两种完全不同的使用姿势。

如果你只想根据一句提示词直接生成一张图，那走 Image API 就够了，简单，直接，适合单次出图。

但如果你想把图片生成放进多轮对话、放进 Agent 流程、放进连续修改任务里，那 Responses API 才是更关键的那个入口。

因为它支持把图片生成当成工具来调用，还支持多轮编辑、带着上下文继续改，甚至还能用 previous_response_id 接着前一轮往下走。

这意味着什么？

意味着以后“先写文案，再出图，再改图，再把图塞进页面或文档”这种事，不用再拆成五六个孤岛动作了。

模型、图片、上下文、任务流，开始能接起来了。

这个变化，比单纯讨论“它比谁更清晰”“它比谁更有氛围感”，重要得多。

因为画得再好，如果接不进流程，最后也容易沦为演示。

Hermes 这一侧，最大的价值不是花样更多，而是入口更顺了

Hermes 这边我最近也一直在看。

它之前最容易把人劝退的，说白了就一句话：能力很多，真接起来有点累。

搜索一套，出图一套，浏览器一套，语音再来一套。

Agent 还没开始认真干活，人先在配钥匙了。

但 0.10.0 这一轮之后，Hermes 已经把 image generation 明确放进自己的工具层里了。

从公开文档看，Hermes 现在的 image generation 已经是标准能力，能走 FAL，也能走 Nous 的 Tool Gateway。官方 release note 里也明确把 image generation 列进了 Gateway 的四大能力之一，和 web search、text-to-speech、browser automation 放在同一层。

这件事表面上看像是“又多了一个工具”。

实际上不是。

它真正值钱的地方，是把图片生成从外挂，往内建能力挪了一步。

这一步很关键。

因为一旦生图能力进入统一工具层，后面它就不再只是“顺手玩一下”的功能，而是可以跟检索、浏览器操作、写作、总结这些动作接成链路。

比如一篇内容稿，先查资料，再整理观点，再顺手生成配图。

比如一个产品方案，先梳理需求，再补一张示意图。

比如一个自动化任务，前面几步都是文字和网页，最后一步直接把封面图吐出来。

这种体验，和以前专门跳去另一个站点生图，再把图拖回来，差别真的很大。

当然，这里我也得说实话。

Hermes 当前公开文档里，明确列出来的是 fal-ai/gpt-image-1.5 这类模型入口，Tool Gateway 也已经把 image generation 作为统一能力接进来了。换句话说，Hermes 这边最重要的进展，是图像生成已经进入它的工具链框架，接下来官方模型层继续往 GPT Image 2 跟进，反而更像时间问题。

我个人会把这理解成：路已经铺好了。

而且是主路，不是小路。

Codex 这一侧，更吓人的是“图片开始进入 Agent 工作流”

很多人看到 Codex，第一反应还是写代码。

这当然没错。

但如果你看最近 OpenAI 开发者文档和 Codex changelog，会发现它正在往更完整的工作台走。

尤其是这轮更新之后，Codex 一边在补 in-app browser、computer use、artifact viewer 这些能力，一边 OpenAI 又把 image generation 明确做成了 Responses API 里的工具能力。

这两个信号放在一起看，就很有意思了。

它不再只是“会写代码的助手”。

而是越来越像一个能处理多模态任务的 Agent 工作台。

文档里写得很清楚：在 Responses API 里，图片生成可以作为内置工具被调用；不仅能生成，还能在多轮上下文里持续编辑；需要的时候还能强制 generate 或 edit。

这意味着什么？

意味着 Codex 这类以任务流为核心的产品，后面接 GPT Image 2，不是“能不能做”的问题，而是“会做成什么体验”的问题。

这才是重点。

因为对真正干活的人来说，最烦的从来都不是模型不够强。

而是流程割裂。

你写了一段 landing page 文案，接着要做配图。

你画了一个产品说明页，又要补几张插图。

你让 AI 改前端页面，结果还得自己另外找地方做 hero image。

这种来回切换，特别伤流畅度。

一旦图片生成被放进同一条任务链里，很多事情就顺了。

写、改、看、调、出图，可以在一个上下文里连续发生。

这个体感差异，不是“多了一个功能”能概括的。

这是工作方式在变。

所以我为什么觉得这次更值得认真看

因为它说明了一件事：

生图模型这条线，已经开始从“比效果”走到“比接入”。

前几年大家卷的是谁更像，谁更快，谁更惊艳。

现在这些当然还重要。

但对真正长期用工具的人来说，已经不够了。

接下来更值钱的判断标准，我觉得至少有三个。

第一，能不能稳定进入工作流。

第二，能不能支持连续修改，而不是每次都重新开一局。

第三，能不能和文字、网页、代码、文档这些任务自然串起来。

谁先把这三件事做好，谁就更像主力工具。

谁只会出几张“哇塞”的图，最后大概率还是停在展示层。

这也是为什么我会觉得 GPT Image 2 这次更危险一点。

不是因为它又赢了一张海报。

而是因为它正在被接进真正的生产链条。

哪些人现在最该盯着它看

如果你是下面这几类人，我觉得这波要认真看，不是看热闹。

第一类，做内容的人。

尤其是那种平时既要写字，又要配图，还要反复改封面和插图的人。你会很快感受到，图像能力一旦进入同一套工作流，省下来的不是一步，而是一串动作。

第二类，做产品和前端的人。

很多页面工作，本来就不是纯代码问题，而是文案、结构、视觉、截图、插图混在一起的问题。图片生成如果能直接挂进任务流，很多事就没必要拆开做了。

第三类，折腾 Agent 和自动化的人。

这一类人最该看的，从来都不是“模型榜单”。

而是“哪个能力终于能接进链条了”。

因为一旦接进去，后面能玩的就不是一个功能，而是一整套流程。

反过来讲，如果你现在只是偶尔随手出图，没连续修改需求，也没有工作流整合需求，那倒不用急着吹得太猛。

你可能只会觉得：嗯，图更好了。

但这还不是它最狠的地方。

我自己的判断

我现在越来越觉得，下一阶段真正能打的生图模型，比的已经不是谁更像设计师。

而是谁更像基础设施。

能不能被接进 Agent。

能不能被接进工作流。

能不能在连续任务里不掉线。

这三件事，比再多几张惊艳样片都更值钱。

所以 GPT Image 2 这次在我这里，意义并不只是“OpenAI 又发了个更强的生图模型”。

而是它把一个信号放得很明确：图片生成，正在从展示能力，往主流程能力里挤。

Hermes 这边，工具层已经铺路了。

Codex 这边，Agent 工作流也已经把图像生成纳进来了。

这就不是小修小补了。

这说明生图这件事，正在从“单独玩”变成“顺手用”。

而一旦一个能力开始变成“顺手用”，它离真正普及，通常就不远了。

如果你问我这波该怎么看，我的答案很简单。

先别只盯着它画得有多好看。

先看它是不是已经开始悄悄进入你每天会用的那条链路。

这个变化，才更大。