OpenAI发布新一代文生图模型ChatGPT Images 2.0 大幅提升文字生成能力

站长云网 2026-04-22 5iter.com 站长云网

在短短两年内，区分人类创作和 AI 生成图像的方式正在迅速失效。过去，图像生成模型一旦被要求生成带有菜单这种文本密集元素的图片，就很容易在拼写上“翻车”。例如，早期模型在生成墨西哥餐厅菜单时，会把常见菜名“发明”成诸如“enchuita”“churiros”“burrto”“margartas”等错误拼写，一眼就能看出不靠谱。

而现在，用全新的 ChatGPT Images 2.0 让其生成一份墨西哥菜菜单时，模型给出的结果已经足以直接拿去店里使用，普通顾客很难从文字本身看出破绽。唯一可能让人心生疑虑的，反而是类似“13.50 美元的酸橘汁腌鱼（ceviche）”这种价格水平，会让人对鱼的品质稍作犹豫。为了对比，作者还引用了两年前使用 DALL·E 3（当时 ChatGPT 还不具备内置图像生成功能）生成的菜单示例，旧模型在文字呈现上的不稳定与新模型形成鲜明反差。

AI 图像生成器长期以来在拼写方面表现不佳，核心原因和主流技术路线有关。过去的图像模型多采用扩散模型（diffusion model），通过在噪声中逐步“重建”图像来完成生成任务。 Lesan AI 创始人兼 CEO Asmelash Teka Hadgu 曾在 2024 年接受 TechCrunch 采访时表示，扩散模型本质上是在还原一幅整体图像，而图像上的文字通常只占极小一块像素区域，因此模型更倾向于优先学习覆盖面积更大的视觉模式，而不是精细的文字形状。在此背景下，研究人员开始探索自回归模型（autoregressive model）等新机制，让图像生成更像大语言模型那样，通过逐步预测、理解结构来构建画面。

对于 ChatGPT Images 2.0 使用了何种底层架构，OpenAI 在本周的媒体简报会上拒绝正面回应相关问题。不过，OpenAI 在介绍中强调，新模型具备所谓的“思考能力”（thinking capabilities），能够联网检索信息、从一次提示生成多张图片，并对自身输出进行复查。这意味着，Images 2.0 不只是单次“出图”，而是可以围绕同一创意生成多种物料，例如不同尺寸的营销素材、适配多平台的广告图，甚至是一组多格漫画分镜。

OpenAI 还表示，新模型在非拉丁文字渲染方面有明显进步，包括日文、韩文、印地语和孟加拉语等语言的文字呈现能力都得到加强。模型的知识截止时间为 2025 年 12 月，这也意味着在涉及近期新闻或最新事件的提示时，其生成内容可能存在时效性局限。在官方新闻稿中，OpenAI 将 Images 2.0 描述为在“细节和逼真度”层面上实现了前所未有的提升，强调其可以构思和落地更加复杂的图像，精准遵循指令并保留用户提出的细节要求。特别是在以往图像模型最容易“崩坏”的环节——小号文字、图标、界面 UI 元素、密集构图以及细腻风格约束等方面，Images 2.0 都能在最高 2K 分辨率下稳定输出。

这种能力提升也带来了速度上的权衡。相比直接在 ChatGPT 中输入问题获取文本回答，生成一幅复杂的、多分镜漫画或多尺寸物料需要更长一些时间。但就当前产品表现来看，完成这类复杂图像任务通常仍只需数分钟，已经能够覆盖大部分实际应用场景。

在访问权限方面，OpenAI 表示，所有 ChatGPT 和 Codex 用户都会从周二起逐步获得对 Images 2.0 的使用权。不同层级的付费用户则可以在生成质量和输出复杂度上解锁更“高级”的结果，例如更高分辨率、更复杂构图或更多版本的图像输出。与此同时，OpenAI 还将通过 gpt-image-2 向开发者开放相关 API，按生成图像的质量和分辨率分级计价，使第三方应用可以在自身产品中集成这一图像生成能力。

ChatGPT Images 2.0 体现出图像生成模型在文字理解与排版能力上的一大跃进，让曾经被认为是“弱项”的文字区域，成为可以放心交给 AI 处理的设计环节。随着 OpenAI 启动全面开放和商业化接口，这一代文生图模型有望迅速进入营销设计、产品 UI、游戏与漫画创作等多个行业的生产流程，进一步模糊人类与 AI 视觉内容之间的界线。

责任编辑：站长云网

上篇：Meta计划监控员工鼠标键盘收集数据训练AI

下篇：库克亮相苹果员工大会试图平息外界对卸任CEO原因的猜测

顶一下[0]

踩一下[0]