PaperBanana 接入 GPT Image 2 —— 论文插图里的文字终于能看清了

每个科研用户都遇到过的痛点

你写 prompt 让 AI 画一张 transformer attention 图。生成出来看着挺漂亮,一放大就全毁了 —— 坐标轴写成了 "Atteniton Layerr",图例写着 "Qury / Kye / Vauel",角落公式糊成一团墨迹。

这是上个季度 PaperBanana 用户申请退款时最常见的理由。

现在解决了。

新模型:GPT Image 2

OpenAI 于 2026 年 4 月 21 日发布 GPT Image 2,这是第一个专门针对文字渲染优化的图像模型。独立评测数据显示排版准确率接近 99%,此前模型是 90-95%。当前在 Image Arena 所有榜单全部第一,text-to-image 领先第二名 +242 Elo —— 这是该榜单出现以来最大的领先幅度。

从今天起,GPT Image 2 是 PaperBanana 生成器 Model 下拉列表中的第一个选项。

对学术插图意味着什么

以前模型做不好的事,GPT Image 2 基本解决了:

  • 坐标轴标签 —— x/y 轴刻度能正确显示数字和单位,不再糊成一片
  • 流程图文字 —— 方框里的短语("Encoder"、"Softmax"、"Cross-Attention")在论文常用分辨率下清晰可辨
  • 公式片段 —— 行内数学如 y = Wx + bsoftmax(QK^T/√d) 能识别
  • 多语言标签 —— 在英、中、日、韩文都测过,混合语种图里保持一致

定价

单次积分适用场景
标准5 积分初稿、试不同变体、早期迭代
HD(中等质量)15 积分最终要放进论文/PPT 的定稿图

固定定价,订阅用户不打折。用你现有订阅余额或一次性积分包都行。积分包详见 Pricing 页。

怎么用

  1. 打开 生成器
  2. Model 下拉中选 GPT Image 2(标了 NEW 徽章,默认已选中)
  3. 选宽高比 —— auto 是安全默认,或从 1:1 到 21:9 中选一个
  4. Quality: Default(5 积分)或 HD(15 积分)
  5. 输出格式默认 JPEG —— 需要透明背景或更小文件就换 PNG 或 WebP
  6. 写 prompt,生成

多文字图像的 prompt 技巧

模型渲染文字的能力强,但 prompt 结构还是很关键:

  • 要出现的文字用双引号框出来,例如 a flowchart with boxes labeled "Tokenizer", "Encoder", "Decoder"
  • 方框标签保持简短 —— 每个元素 1-5 个词。图里塞 20 字段落在论文分辨率下还是会糊。
  • 明确说明布局 —— "three stacked rectangles connected by downward arrows" 这样的描述给模型一个可以往上填字的框架
  • 手头已经有草图就用 image-to-image 模式 —— GPT Image 2 会保留你的布局,把文字清理干净

坦诚的局限

我们希望你花积分,不是来申请退款。下面这些事 GPT Image 2 还做不好:

  • 图里塞一整段密集文字(20 字以上集中在一个区块)—— 可读性依然会下降
  • LaTeX 级别的手写科学符号 —— 常用数学符号没问题,但复杂记号(张量下标、自定义算子)还是不稳定
  • 精确复刻版权 Logo 或期刊模板 —— 别拿它伪造 IEEE / ACM 的排版

如果你的图里文字元素超过 50 个,或者需要出版级符号记法,建议用 GPT Image 2 出底图布局,最终的文字在 Adobe Illustrator 或 Inkscape 里补。

给上个季度退款过的用户

你告诉我们生成出来的文字在论文里没法用。你说的没错 —— 旧模型确实做不到。

这个模型可以。

如果你在 2026 年 1 月至 3 月间专门因为文字质量申请过退款,请查看站内通知 —— 我们给你单独发了一个一次性专属折扣码,让你用更低的成本在自己的图上验证修复效果。不用填表单,也不用重新注册。

现在就试

打开生成器,Model 下拉选 GPT Image 2。一次生成就能判断对你的图是否好用。

有问题或者想看某类具体图表的 benchmark,随时点站内反馈按钮 —— 我们看每一条。