OpenAI发布新一代文生图模型ChatGPT Images 2.0 大幅提升文字生成能力

站长云网 2026-04-22 5iter.com 站长云网

在短短两年内,区分人类创作和 AI 生成图像的方式正在迅速失效。 过去,图像生成模型一旦被要求生成带有菜单这种文本密集元素的图片,就很容易在拼写上“翻车”。 例如,早期模型在生成墨西哥餐厅菜单时,会把常见菜名“发明”成诸如“enchuita”“churiros”“burrto”“margartas”等错误拼写,一眼就能看出不靠谱。

而现在,用全新的 ChatGPT Images 2.0 让其生成一份墨西哥菜菜单时,模型给出的结果已经足以直接拿去店里使用,普通顾客很难从文字本身看出破绽。 唯一可能让人心生疑虑的,反而是类似“13.50 美元的酸橘汁腌鱼(ceviche)”这种价格水平,会让人对鱼的品质稍作犹豫。 为了对比,作者还引用了两年前使用 DALL·E 3(当时 ChatGPT 还不具备内置图像生成功能)生成的菜单示例,旧模型在文字呈现上的不稳定与新模型形成鲜明反差。

AI 图像生成器长期以来在拼写方面表现不佳,核心原因和主流技术路线有关。 过去的图像模型多采用扩散模型(diffusion model),通过在噪声中逐步“重建”图像来完成生成任务。 Lesan AI 创始人兼 CEO Asmelash Teka Hadgu 曾在 2024 年接受 TechCrunch 采访时表示,扩散模型本质上是在还原一幅整体图像,而图像上的文字通常只占极小一块像素区域,因此模型更倾向于优先学习覆盖面积更大的视觉模式,而不是精细的文字形状。 在此背景下,研究人员开始探索自回归模型(autoregressive model)等新机制,让图像生成更像大语言模型那样,通过逐步预测、理解结构来构建画面。

对于 ChatGPT Images 2.0 使用了何种底层架构,OpenAI 在本周的媒体简报会上拒绝正面回应相关问题。 不过,OpenAI 在介绍中强调,新模型具备所谓的“思考能力”(thinking capabilities),能够联网检索信息、从一次提示生成多张图片,并对自身输出进行复查。 这意味着,Images 2.0 不只是单次“出图”,而是可以围绕同一创意生成多种物料,例如不同尺寸的营销素材、适配多平台的广告图,甚至是一组多格漫画分镜。

OpenAI 还表示,新模型在非拉丁文字渲染方面有明显进步,包括日文、韩文、印地语和孟加拉语等语言的文字呈现能力都得到加强。 模型的知识截止时间为 2025 年 12 月,这也意味着在涉及近期新闻或最新事件的提示时,其生成内容可能存在时效性局限。 在官方新闻稿中,OpenAI 将 Images 2.0 描述为在“细节和逼真度”层面上实现了前所未有的提升,强调其可以构思和落地更加复杂的图像,精准遵循指令并保留用户提出的细节要求。 特别是在以往图像模型最容易“崩坏”的环节——小号文字、图标、界面 UI 元素、密集构图以及细腻风格约束等方面,Images 2.0 都能在最高 2K 分辨率下稳定输出。

这种能力提升也带来了速度上的权衡。 相比直接在 ChatGPT 中输入问题获取文本回答,生成一幅复杂的、多分镜漫画或多尺寸物料需要更长一些时间。 但就当前产品表现来看,完成这类复杂图像任务通常仍只需数分钟,已经能够覆盖大部分实际应用场景。

在访问权限方面,OpenAI 表示,所有 ChatGPT 和 Codex 用户都会从周二起逐步获得对 Images 2.0 的使用权。 不同层级的付费用户则可以在生成质量和输出复杂度上解锁更“高级”的结果,例如更高分辨率、更复杂构图或更多版本的图像输出。 与此同时,OpenAI 还将通过 gpt-image-2 向开发者开放相关 API,按生成图像的质量和分辨率分级计价,使第三方应用可以在自身产品中集成这一图像生成能力。

ChatGPT Images 2.0 体现出图像生成模型在文字理解与排版能力上的一大跃进,让曾经被认为是“弱项”的文字区域,成为可以放心交给 AI 处理的设计环节。 随着 OpenAI 启动全面开放和商业化接口,这一代文生图模型有望迅速进入营销设计、产品 UI、游戏与漫画创作等多个行业的生产流程,进一步模糊人类与 AI 视觉内容之间的界线。

责任编辑:站长云网