Introducing ERNIE‑Image by Baidu
17 Apr 2026
【百度開源 ERNIE-Image:文本生成圖像新突破】
百度 ERNIE 團隊宣布推出開源文本生成圖像模型 ERNIE-Image及 ERNIE-Image-Turbo . 該模型具備 100 億參數規模 , 利用混合專家架構顯著強化了對複雜描述的理解力, 能精準創造出細節豐富且符合邏輯的高品質圖片. 效果針對“插圖”、“短漫畫”及“海報”類型的圖片生成 .
該模型基於 Diffusion Transformer (DiT) 架構, 僅 8B 參數即在 GenEval、OneIG、LongTextBench 等基準測試中奪得開源模型第一名 .
ERNIE-Image 特別強調 Precise Text Rendering 與 Structured Visual Generation, 能在中文與英文場景下生成 高可讀文字, 並精準處理海報、漫畫分鏡等複雜結構. 其 Prompt Enhancer (PE) 技術可將簡短輸入轉化為更完整的提示, 顯著提升生成品質.
ERNIE-Image模型提供 SFT 與 Turbo 版本, 支援消費級 GPU 運行, 並已於 GitHub 開源, 採用 Apache-2.0 授權 .
