返回首頁

AI Pipeline Designer & Image Enhancer

Frontend UX Design
React 19 TypeScript Vite TailwindCSS Gemini API

專案概覽

個人 Side Project,目標是探索 React 19 的新特性與 Gemini API 的多模態能力。 打造一款視覺化管線設計工具,讓使用者透過拖拉操作組合影像處理步驟,由 Gemini 直接生成處理後的圖片結果。

核心問題

  • 操作門檻高 — 現有影像處理工具(如 Photoshop)學習曲線陡峭,非專業使用者難以上手
  • 能力分散 — AI 影像處理能力散落在不同服務中,缺乏統一的操作介面
  • 流程無法複用 — 多步驟處理流程無法視覺化組合與保存,每次都要重新操作

設計理念 — 從產線到管線

製造業的生產排程本質上就是一條管線:原料 → 加工站 A → 加工站 B → 成品。 在燁輝負責年營收 600 億產線排程的經驗,讓我對「如何將複雜流程拆解為可管理的步驟」有深刻理解。

同樣的邏輯應用於影像處理:原圖 → 去背 → 風格轉換 → 畫質增強 → 輸出。 節點式介面讓使用者像排程一樣組合處理步驟,每個節點就是一個獨立的「加工站」。

技術架構

  • 前端框架 — React 19 + TypeScript + Vite + Tailwind CSS
  • AI 引擎 — Gemini API 多模態能力:接收圖片 + 文字指令,直接回傳處理後的圖片
  • 管線引擎 — 節點式資料結構(JSON),A 節點輸出自動流入 B 節點作為輸入
  • 即時預覽 — 每個節點處理完成後即時渲染結果,使用者可逐步確認

技術亮點

Prompt Engineering 封裝

使用者只需選擇「去背」或「風格轉換」等操作,系統自動組裝對應的 Gemini prompt。 將 prompt engineering 的複雜度封裝在系統內部,降低使用門檻。

非同步管線執行

多個節點依序執行,每個節點須等待上游結果。實作了完整的 loading 狀態管理、錯誤恢復與中斷機制, 確保長鏈管線在任一環節失敗時能優雅處理。

React 19 新特性實踐

探索 Transitions 與改進的 Suspense 來處理非同步 AI 回應, 學習新版 React 在並發模式下的最佳實踐。

挑戰與取捨

  • Gemini API 回應時間不穩定 — 影像生成耗時 2–10 秒不等, 需要設計良好的 loading UX(骨架屏、進度指示)讓使用者在等待時不感到焦慮
  • 圖片大小限制 — Gemini API 對輸入圖片有尺寸限制, 需在前端做壓縮處理,平衡畫質與 API 限制

跨域思維

從製造業的標準作業程序(SOP)產線排程,到軟體的管線設計—— 核心思維是一致的:把複雜流程拆解成可管理、可組合、可重複使用的步驟。

在燁輝管理生產排程時,我每天面對的就是「如何讓原料以最有效率的路徑通過各加工站」。 這個專案證明,同樣的思維框架可以遷移到完全不同的技術領域—— 這正是跨域經驗最有價值的地方。