更多CG新聞
MORE CG News
Luma Introduces Ray 3.2 Video Gen AI with EXR Support
【Luma發布Ray 3.2影片生成AI與API,支援EXR輸出】
LLuma 正式發布最新影片生成 AI 模型「Ray 3.2」及相關 API,全面進軍專業影視製作市場. 新版本打破以往 AI 生成的隨機性,創造出讓創作者能以「Frame」為單位精確主導的專業工具 !
重點包括 :
– Frame-level Control with multi-keyframe:Ray 3.2 支援在單一影片片段(Clip)中加入高達 16 個Keyframes . 導演和製作團隊可以像畫 Storyboard 一樣, 精確引導鏡頭軌跡、畫面動態與敘事節奏, 徹底擺脫以往 AI 生成的隨機性.
– 完美保留動態與表情:提升了動態追蹤與面部表情性能. 能同時追蹤高達 8 張面孔 的細微表情與骨骼肢體動作, 確保角色的情緒在每幀之間保持連貫.
– 無縫對接專業 Pipeline:原生支援 HDR 生成與 16-bit EXR 格式匯出. 生成的高動態範圍畫面可直接放入現有的 Post-production、VFX 特效及 Color Grading 工作流程, 方便合成, 不損失畫質.
– 靈活重構畫面(Reframe):增強了 Reframe 功能, 容許後期製作人員在完全保留原始 Lighting 的前提下, 自由延伸畫面、替換背景或更改影片Aspect Ratios, 以適應不同平台, 避免重新生成.
– 長片生成與全面開放 API:支援生成高達 20 秒、1080p 的電影級長鏡頭, 同時 Luma 首次將 Ray 3.2 的完整控制介面開放為 API, 方便 Studio 或開發者直接整合至現有的內部工具或 Render farm 系統中.
x.AI Releases Grok Imagine 1.5 Video Generation Model Preview
【Grok Imagine 1.5影片生成預覽】
x.AI 正式發表最新圖像生成影片模型 grok-imagine-video-1.5-preview, 目前已透過 xAI API 開放預覽 .
這款新模型能將單張靜態圖片轉化為具電影感的流暢影片, 最高支援 720p 解像度.
用戶只需提供一張初始畫面並輸入自然語言提示詞, 即可精準控制鏡頭移動、動態節奏及音效設計. 該模型的優勢在於能完美保留原圖的細節與光影, 而非重新詮釋畫面.
此外它亦支援序列生成, 創作者可將多個分鏡串聯成更長的場景, 並在整個項目中保持視覺風格的一致性.
而根據獨立分析機構 Artificial Analysis 的「Video Arena(有聲版)」測試 Grok Imagine 1.5 Preview 獲得全球第 2 名, 僅次於字節跳動的 Seedance 2.0。而在無聲版測試中則排名第 3名,
評測影片顯示, 該模型在處理光影細節、連續複雜動作及物理法則上表現極為出色, 甚至超越了 Google 的 Veo 3.1.
目前開發者已可透過幾行程式碼將其整合至工作流程之中.

Runway Introduces MCP Support for Direct Generation in AI Agents
【Runway正式發布「Runway MCP」功能】
Runway 正式支援 Model Context Protocol (MCP) 協議, 將強大的影像生成能力深度整合至用戶的日常工作流.
現在開發者與設計師只需透過 Claude Desktop 或 Cursor 等外部 AI Agent, 即可在統一的對話界面中直接調用 Runway 最新模型(包括Gen-4.5及其他AI生片模型, 如Seedance 2.0)來創造高質素圖像及影片.
這項更新簡化了素材生成流程, 讓 AI 輔助創作成為開發與設計環境中不可或缺的一部分.
開發者與設計師在撰寫 Prompt 或代碼時, 無須離開原有的軟件界面, 即可呼叫 Runway 進行圖影生成.
無論是進行 UI 原型製作還是需要即時調整 3D assets 並進行 Render, Runway MCP 均能大幅提升執行效率並節省溝通時間.
目前相關協議已正式開放予開發者使用.
Google I/O 2026: Gemini Omni “World Model” Debuts
【Google I/O 2026:Gemini Omni 世界模型重磅登場 !!】
在今日舉行的 Google I/O 2026 大會上 , Google 展現了從「AI 工具」進化為「AI 代理(Agents)」的野心, Google 推出了多項突破性功能,特別是全新的 Gemini Omni 世界模型 !
Google 發表了全新的 Gemini Omni 模型, 真正的多模態生成(Multi-modal World Model):
不同於以往單純的文字轉影片, Gemini Omni 支援「任何輸入轉任何輸出」, 可以同時使用 文字、圖片、音訊或影片 作為提示詞來生成內容 .
Gemini Omni 能理解現實世界的物理規則, 生成的影片在物體運動、光影與環境互動上更加科學精確(如大會展示的氨基酸 3D 動畫).
對話式影片編輯(Conversational Editing): 這是一個重磅功能!影片生成後, 以直接透過對話修改內容.
Gemini Omni Flash: 即日起開放給 Google AI Plus、Pro 及 Ultra 訂閱者使用
其他還有 – AI 圖片生成與設計:Google Pics , 新一代的高速模型 Gemini 3.5 Flash 以及 個人 AI 代理 Gemini Spark 等等 …