2026 年春天,筆者收到了一封朋友的貼文:「GPT Image 2 剛剛發布,你真的要試試。」
我沒有點進去,因為過去幾年,每隔幾個月就會有一個「新一代 AI 圖像生成模型」出現,聲稱「比上一代快兩倍、細節多一倍、文字準確一倍」。但實際用起來,不是文字亂碼,就是畫面失真,最後只能用在「概念視覺」或「草稿」,無法真正放進專案。
然而,這次不太一樣。
這一次,不只是社群在討論 GPT Image 2,而且是 OpenArt、OpenAI、Google 與多家設計媒體同時在談「它真的在理解設計」。
我就想說,那就認真試試。
筆者透過 AIMochi 筆記工具,整理多方公開資訊和最新報導內容,來探討 GPT-Image 2 如何改變設計思維。
我先打開 OpenArt,選擇「創建圖像」功能,畫面中出現了多個模型選項:
GPT Image 2
Nano Banana Pro(來自 Google)
以及其他各家平台的替代方案
我選了 GPT-Image 2,第一次輸入:
「創作一張黑暗奇幻風格的數位繪畫,一位孤獨的騎士在殘破的大教堂內,手握發光的劍,陰影聚集。」
按下「生成」,不到 10 秒,畫面出現了:
一個陰暗、質感自然的中世紀畫面
騎士的盔甲、劍光、教堂石柱與光線,幾乎完整
文字也出現了:在畫面底部,有「Gothic 傳說:血色聖堂」的標題,字體、大小與層級都恰到好處
我愣住了。
這不是「AI 畫圖」,而是「AI 理解設計」。
以往,MidJourney 或 DALL-E 3 生成的圖片雖然視覺上很美,但文字完全不可用,版面結構鬆散,資訊圖表更是完全失效。
然而,GPT-Image 2 卻能在短短幾分鐘內,生成一張真正可用的資訊圖,甚至能幫我做出選擇。
在 2026 年之前,大多數 AI 影像生成工具,都只會「畫圖」,不會「編輯」或「理解」設計。例如:
MidJourney 3 到 4、DALL-E 3、Stable Diffusion 3 等,畫圖都很強,但文字幾乎無法用
Nano Banana 1.5 與 2.0,可以做基礎文字排版,但層級與閱讀邏輯常常出錯
但我發現 GPT Image 2 不一樣。它能做到:
1. 精準文字渲染與版面控制
文字可以「真的寫得上去」,而不是只是「畫上去」
能理解「標題、副標題、內文」的層級結構
能根據提示「宏觀控制」視覺平衡,例如:
「字體居中,底部附近」
「居中,字體較大,黑體」
「右上角,小字,標示日期」
這讓設計師不必再為「資訊圖表的文字」煩惱,而可以把心力放在「訊息結構」與「訊息優先順序」。
2. 角色一致性與人物臉部細節
在 GPT Image 2 中,人物可以「保持一致」,例如:
同一個角色在不同場景、不同角度,臉部細節不會突然變形
頭髮、眼睛、鼻子、嘴唇的細節,不會像早期 AI 那樣「忽胖忽瘦」
這讓設計師可以:
創作「人物角色」,讓同一角色在不同畫面中出現(例如:品牌大使、教學影片主角)
保持「視覺識別」與「品牌一致性」,而不用再請攝影師逐張拍照
3. 透明 PNG 與「切片」功能
GPT Image 2 可以直接輸出「透明 PNG」,讓設計師可以直接把圖貼進 App、網站、電商平台,而不用再進 Photoshop 刪除背景
以往,設計師必須:
生成圖像 → 匯入 Photoshop → 手動刪除背景 → 導出 PNG → 再貼進 App
現在,這一步被「自動化」,工作流程大幅縮短。
4. 影片與分鏡生成能力
GPT Image 2 不只是「畫圖」,而是「畫分鏡」與「生成影片」
在 OpenArt 上,我可以:
先用 GPT Image 2 畫出「起始畫面」與「結尾畫面」
再用 AI 影片生成器(例如 CeDict 2.0),讓 AI 自動生成「中間畫面」,形成「影片分鏡」
這讓我可以:
快速做出「教學影片、廣告片、品牌故事片」的分鏡與成片
用 AI 來「構思畫面」,再用 Photoshop 或 After Effects 來做「細節優化」
之後,我決定再做一個實驗:
用同一個提示,分別用 GPT Image 2 與 Nano Banana Pro 生成畫面,然後比較:
文字品質
角色一致性
自然景觀
影片分鏡能力
1.文字品質:GPT Image 2 壓倒性勝出
這次我輸入:
「一張資訊圖,標題為『通勤背包前五名』,包含品牌、價格、重量、材質、容量與用戶評價。」
用 GPT Image 2 生成的畫面:
文字清晰可讀
標題、副標題、數據欄位層級分明
數據欄位排列整齊,不會出現「重複欄位」或「空白欄位」
用 Nano Banana Pro 生成的畫面:
文字有時會亂碼
數據欄位有時會重複或錯位
有些數據會被「AI 自行補上」,而不是照你給的數據
我忍不住點頭:
「GPT Image 2 真的比 Nano Banana Pro 更會理解『資訊圖表』。」
2. 角色與人物臉部:GPT Image 2 的細節優勢
之後我再把自己的一張自拍照上傳,請 AI 生成「LinkedIn 頭像」,並分別用 GPT Image 2 與 Nano Banana Pro 處理。
GPT Image 2 的版本:
人物臉部細節幾乎一模一樣
頭髮、眼睛、鼻子、嘴巴的比例都保持一致
看起來像是「真實照片」,而不是「AI 生成圖」
Nano Banana Pro 的版本:
人物臉部細節會變形
頭髮、眼睛、鼻子、嘴巴的比例會「時胖時瘦」
看起來像是「AI 生成圖」,而不是「真實照片」
這讓我想起,以前用 Nano Banana Pro,每次都要調整多次......
3. 自然風景:GPT Image 2 的「奇怪紋理」問題
然而,我也發現了 GPT Image 2 的缺點:
當畫面是「自然風景」,例如海島、森林、草原,AI 會出現「重複紋理」
同一棵樹、同一片葉子,會重複出現
同一條河流,會出現「重複的水紋」,看起來像是「人工重複」,而不是「真實自然」
有時畫面會「太暗」,即使提示中沒有寫「黑暗風格」,畫面仍然會顯得「陰沉」
我按了幾次「再生」,但問題依然存在。「這可能是 GPT Image 2 的一個盲點。」
4. 影片分鏡:GPT Image 2 的「故事板」能力
我決定試試影片分鏡。
我先用 GPT Image 2 畫出:
一個小男孩在教室裡看筆記,筆記上寫著「勾股定理」
一個老師在講台上,手裡拿著那張筆記,準備解釋
然後,我在 OpenArt 的「AI 影片生成器」中,把這兩張圖設定為「起始畫面」與「結尾畫面」,再輸入:
「男孩看著筆記,說『我不懂這個。』老師勸我別擔心,並指著勾股定理的三角形,解釋:『這很簡單,稍後我會教。』」
結果:
AI 自動生成了中間的畫面,形成一個 10 秒的影片
男孩與老師的表情、動作,都保持一致
文字「勾股定理」在每一幀中都保持一致,不會亂碼
這讓我想起,以前用 Photoshop 或 After Effects,每一個畫面都得手動畫,現在 AI 幫我完成了。
在實測 GPT Image 2 與 Nano Banana Pro 之後,我整理出了以下實務建議:
1. 用 GPT Image 2 的時機
當你想要:
精準的文字渲染(資訊圖表、廣告、品牌文案)
高度一致的「角色與臉部」(品牌大使、教學影片主角)
透明 PNG 與「切片」(直接貼進 App 或網站)
影片分鏡與成片(教學影片、品牌故事片、廣告短片)
建議:
把 GPT Image 2 當成「設計助理」,而不是「設計師」
用它來「做草稿、做概念、做初版」,再用 Photoshop 或 After Effects 來做「細節優化」
2. 用 Nano Banana Pro 的時機
當你想要:
更自然的「自然風景」(海島、森林、草原)
更「藝術感」的畫面(插畫、插畫風格)
更「隨機感」的畫面(不一定要完全一致)
建議:
把 Nano Banana Pro 當成「靈感來源」,而不是「正式專案」
用它來「做構圖、做色彩搭配、做氛圍」,再用 GPT Image 2 或 Photoshop 來做「細節」
3. 用 OpenArt 的「備胎策略」
在 OpenArt 上,你可以:
把「GPT Image 2」當成「主力」,用來做「正式專案」
把「Nano Banana Pro」當成「備胎」,用來做「靈感」或「草稿」
當 GPT Image 2 出現「重複紋理」或「畫面太暗」時,可以:
改用 Nano Banana Pro 的「自然風景」
或在 Photoshop 中做「光線調整」與「細節修飾」
在實測 GPT Image 2 之後,我開始思考:
AI 並沒有取代「設計師」,而是改變了「設計流程的價值鏈」。
在過去,設計師的價值在於:
「畫圖」(畫插畫、畫海報、畫資訊圖)
「排版」(安排文字、圖像、色彩)
「細節調整」(修圖、調色、切片)
但在 AI 世代,設計師的價值會變成:
「訊息結構」:
決定「什麼訊息最重要」,
並讓 AI 用最直覺的方式呈現
「視覺識別」:
決定「品牌風格、色彩、字型」
並讓 AI 用這些風格來創作
「故事分鏡」:
決定「畫面敘述、角色動線、節奏」
並讓 AI 用這些敘事來生成畫面
GPT-Image 2 的誕生,讓設計師與行銷人,可以先試試這項技術,觀察它如何改變你的工作流程。從 Day 1 的「設計假象」,到 Day 7 的「設計轉折點」,GPT-Image 2 將成為你設計流程的轉折點,讓你更輕鬆、更精準、更真實地完成設計。
設計的末日?還是設計師的轉折點?答案,取決於你如何使用這項技術。
以上僅供參考與資訊分享之用!若想快速了解更多資訊,透過 AIMochi 筆記工具,幫我們從海量資料中,梳理出關鍵資訊,讓我們精準掌握重要訊息!