Google Flow 完整研究報告 — AI 影片生成工具

Google Flow 是 Google 的 AI 影片製作工具，以 Veo 模型為核心引擎。
定位：不只是「文字轉影片」，而是完整的 AI 電影製作工作流程。
研究日期：2026-05-20｜官網：labs.google/flow

一、Google Flow 是什麼？

項目	內容
正式名稱	Google Flow
底層模型	Google DeepMind Veo（最新：Veo 3.1）
推出日期	2025 年 5 月 20 日（Google I/O 2025）
前身	VideoFX（Google Labs 早期實驗項目）
官網	labs.google/flow
覆蓋範圍	140+ 國家/地區

Flow 與 Veo 的關係：

- Veo = 底層 AI 模型（Google DeepMind 開發）

- Flow = 消費端創作介面（Google Labs 開發，呼叫 Veo API）

- 關係類似 ChatGPT 之於 GPT-4

- 開發者可直接透過 Gemini API / Vertex AI 呼叫 Veo，不一定要用 Flow 介面

Flow 的定位是「面向創作者的 AI 電影製作工具」，提供從概念發想、角色設計、場景建構、鏡頭控制到多鏡頭敘事的完整創作流程。是目前市場上少數明確瞄準「長敘事影片」場景的 AI 工具。

二、核心功能與能力

基礎生成

文字轉影片（Text-to-Video）：輸入自然語言，生成最長 8 秒影片
圖片轉影片（Image-to-Video）：上傳參考圖，AI 動畫化
原生音頻生成：Veo 3 起支援同時生成影像 + 音效/對話/環境音（業界首創）

進階創作工具

工具	功能
Scene Builder	延伸片段，保持角色與場景一致性，生成「接下來發生什麼」
Camera Controls	精確指定鏡頭運動 — 平移、縮放、推拉、旋轉
Ingredients	建立角色/道具/場景元素庫，跨場景保持視覺一致性
Lasso 工具	框選局部區域進行精確編輯
自然語言編輯	用文字指令修改影片（如「移除畫面中的男人」「加入錦鯉」）
物件新增/移除	從生成的影片中增加或刪除物件

2026 年新增功能 NEW

功能	說明
Flow Agent	AI 創作夥伴 — 腦力激盪劇情、建議台詞、批次編輯、同時生成多版本
Flow Tools	用自然語言建立自訂工作流程（無需寫程式），可分享給社群
Whisk + ImageFX 整合	圖片生成功能移入 Flow，統一成單一工作區
Gemini Omni Flash	結合 Gemini 推理 + 生成媒體，強化角色一致性、多媒體輸入輸出

Flow Music（獨立工具）

AI 生成音樂並製作配合節奏的 MV
分段精確編輯：獨立修改歌詞、節拍風格、延伸特定段落
翻唱版本：保留旋律結構並轉換風格
用 Gemini Omni 指揮 MV 製作

三、技術規格

規格	Veo 3.1 數據
最高解析度	4K（3840×2160），2026/01 新增
支援解析度	720p / 1080p / 4K
幀率	24fps（預設）/ 30fps / 60fps
單次生成長度	4 / 6 / 8 秒（可選）
最長可輸出	透過片段接續可達 2 分鐘+（每段延伸 ~7 秒，最多 20 次）
畫面比例	16:9（橫式）/ 9:16（直式）
音頻	原生音頻生成（音效、環境音、對話同步）
浮水印	SynthID 數位浮水印（不可見）
支援輸入	文字、圖片、影片、音訊（Gemini Omni 模式）

Veo 模型版本演進

版本	時間	重點
Veo 1	2024 年	有限預覽
Veo 2	2024 年底	Flow 初期核心模型
Veo 3	2025/05 I/O	首個原生音頻同步模型
Veo 3.1	2025/10	畫質提升、音訊對齊改善
Veo 3.1 Fast	2025	更快速、成本更低
Veo 3.1 Lite	2026	成本最低，適合大量生成

四、定價與訂閱方案

消費端（Flow 介面）

I/O 2026 後改為「運算積分制」— 不再是固定次數，複雜的影片提示消耗積分遠多於文字提示。圖片生成功能現為免費。

方案	月費	雲端儲存	Flow / Veo 額度
Google AI Plus	$7.99	200 GB	基本額度
Google AI Pro	$19.99	5 TB	4 倍額度 + YouTube Premium Lite
Google AI Ultra	$99.99 起	20 TB	20 倍額度 + 優先最新模型 + YouTube Premium

可購買額外的 Pay-as-you-go 積分。Google Vids（Workspace 工具）提供每月 10 部免費影片。

開發者 API 定價 API

模型	定價	適用場景
Veo 3（完整版）	$0.40/秒	最高品質
Veo 3 Fast	$0.15/秒	速度優先
Veo 3.1 Lite	~$0.05/片段	大量生成，比 Fast 便宜 50%+

五、競品比較

主要競品一覽

工具	開發商	最長時長	最高畫質	原生音頻	起始月費
Google Flow / Veo 3.1	Google	8秒（可接續 2分鐘+）	4K	最強	$7.99
Runway Gen-4.5	Runway AI	10 秒	1080p	-	$12
Kling 3.0	快手	10 秒	4K	含唇形同步	$8
Pika 2.5	Pika Labs	10 秒	1080p	有	~$8
Hailuo	MiniMax	6 秒	1080p	-	Pay-as-you-go
Luma Ray 3	Luma AI	10 秒	1080p	-	$29.99
~~Sora~~	OpenAI	~~60 秒~~	~~1080p~~	-	已宣布關閉

Sora 已宣布停止服務：網頁/App 於 2026/04/26 關閉，API 於 2026/09/24 關閉。

各維度誰最強？

評比維度	最佳選擇	說明
整體畫質/寫實感	Runway Gen-4.5 / Veo 3.1	並列，Runway Elo 1,247 分居冠
音頻同步	Veo 3.1（獨家領先）	唯一同時生成影音，音效+對話+環境音全含
人物動作自然度	Kling 3.0 / Hailuo	臉部表情與身體動作最自然
多鏡頭敘事一致性	Google Flow	唯一專為跨場景多鏡頭故事設計
物理模擬	Veo 3.1	液體、布料、頭髮模擬
後製控制靈活度	Runway / Pika	後製編輯工具最完整
4K 輸出	Veo 3.1 / Kling 3.0	兩者均支援原生 4K
社群短影音	Pika	Pikaffects/Pikaswaps 針對 Reels/TikTok 優化
企業/商業用途	Runway	最貼近傳統後製流程

Flow 的核心差異不在單段畫質，而在：

多鏡頭一致性 — 角色、道具、光影跨場景連貫

完整創作流程 — 素材管理到鏡頭控制，不只是「生一段影片」

原生音頻 — 競品均需後製另接音軌

Google 生態整合 — Gemini、Imagen、Workspace 深度連動

六、適用對象與使用場景

適合誰用

對象	怎麼用
獨立電影工作者	多鏡頭場景一致性、鏡頭語言控制
YouTuber / 影片創作者	快速生成 B-Roll、情境畫面
廣告創意人員	品牌概念影片快速原型
社群媒體創作者	Flow Music 製作 AI MV、9:16 直式短影音
遊戲/動畫概念設計師	視覺開發、場景測試
開發者	透過 Veo API 建立影片生成應用

具體場景

短片分鏡原型（Previz）
廣告影片快速生成草稿
新聞/教育影片的視覺配圖
音樂 MV 製作（Flow Music）
社群短影音內容
企業訓練影片素材

七、已知限制

功能限制

每次基礎生成上限 8 秒（接續多段仍需手動調整接縫）
Extend（片段延伸）目前僅支援橫式影片
Ingredients to Video 不支援 Veo 3.1 Quality 模式
提示詞僅支援美式英文，中文支援有限
部分地區受限，並非所有國家都可使用

技術問題

音頻功能仍為「實驗性」，低品質音頻可能導致整段影片無法生成（積分會退還）
部分影片生成後無音頻（已知 bug，修復中）
同時生成上限：5 個影片

存取限制

需年齡驗證（18 歲以上）
建議用 Chrome 桌機操作
行動 App：Android Beta 已上線，iOS 尚未上線

八、I/O 2026 最新動態 HOT

2026/05/19-20 I/O 2026 重大更新

Gemini Omni Flash 整合 — 結合 Gemini 推理 + 生成媒體，支援多媒體輸入生成高品質影片，可透過對話持續修改
Flow Agent 全面開放 — AI 創作夥伴升級，支援腦力激盪、批次編輯、多版本平行生成
Flow Tools — 自然語言建立無程式碼工作流程，可分享給社群
行動 App 上線 — Flow App（Android Beta）、Flow Music App（iOS 已上線）
Flow Music 升級 — 分段精確編輯、封面翻唱、Gemini Omni MV
訂閱方案重整 — Plus $7.99 / Pro $19.99 / Ultra $99.99 起，改為運算積分制

2026/02 更新

全新介面設計，圖片生成功能前置
Whisk 和 ImageFX 整合進 Flow
Asset Grid 系統、Collections 功能
Lasso 精確編輯工具

2026/01

Veo 3.1 支援 4K 輸出正式上線

九、如何開始使用

前往 labs.google/flow
用 Google 帳號登入（需年齡驗證 18+）
訂閱 Google AI Plus（$7.99）/ Pro（$19.99）/ Ultra（$99.99 起）
點選「New Project」開始創作
透過「Flow TV」參考他人作品及提示詞學習

入門建議

先用簡單場景練習：a golden retriever running in slow motion through a wheat field, cinematic, 4K
素材圖像背景盡量乾淨簡單，有助 AI 理解主體
善用「Ingredients」建立角色元素，跨場景保持一致性
提示詞用英文撰寫效果最佳

十、開發者 API API

存取方式

Gemini API（Google AI Studio）— 適合個人開發者，有免費層
Vertex AI — 適合企業，更高可用性 SLA

Python 範例

from google import genai
from google.genai.types import GenerateVideosConfig

client = genai.Client(api_key="YOUR_API_KEY")

response = client.models.generate_videos(
    model="veo-3.0-fast-generate-001",
    prompt="A cinematic shot of a lighthouse at sunset",
    config=GenerateVideosConfig(
        aspect_ratio="16:9",
        resolution="1080p",
        negative_prompt="blurry, low quality"
    )
)

API 模型選擇建議

使用場景	建議模型	理由
高品質製作	Veo 3.1（完整版）	最佳畫質音質
速度優先	Veo 3.1 Fast	快速回應，成本 $0.15/秒
大量/高頻生成	Veo 3.1 Lite	成本最低，~$0.05/片段

十一、總結評估

強項

音頻同步生成業界唯一且領先
多鏡頭敘事一致性是業界最強定位
4K 輸出（業界少數）
Gemini 生態深度整合，延伸性強
API 定價有競爭力
I/O 2026 後功能大幅擴充

弱項

單段 8 秒上限，接續多段仍較繁瑣
提示詞限英文，中文創作者門檻高
行動 App 剛起步，iOS 未上線
音頻功能仍不穩定（實驗性）
部分地區受限

怎麼選？

需求	選擇
音頻同步 + 多場景一致性 + 電影感	Google Flow
廣告製作 + 精細後製控制	Runway
人物動作 + 4K 唇形同步	Kling 3.0
社群短影音 + 快速特效	Pika
開發者大量生成	Veo 3.1 Lite API（性價比最高）

對 WT 的潛在價值：

- 影片製作接案可以用 Flow 做快速分鏡原型（Previz），降低提案成本

- 鯤航教學影片可以用 AI 生成情境畫面（海洋、遊艇場景）補充 B-Roll

- Flow Music 可以為影片專案快速產出配樂

- Veo API 可以整合進 AI 剪輯 pipeline