Gemini 2.5 Flash TTS 完整教學：30種音色、100+語言，免費用 Google 最強 AI 語音生成（2026）

Gemini TTS 是 Google 在 2026 年推出的文字轉語音 API，整合進 Gemini 2.5 Flash 與 Pro 模型，提供 30 種音色、100+ 語言支援、即時語速調整，完全免費使用（付費 API 有額度限制但成本極低）。本文將帶你從零開始，用 Google AI Studio 免費試用 TTS 功能，並學會在 Python 專案中整合 Gemini TTS API，完整掌握這個 2026 年最靈活的 AI 語音工具。

什麼是 Gemini TTS？和 ElevenLabs、OpenAI TTS 有什麼差別？

Gemini TTS 是 Google 最新推出的文字轉語音功能，整合在 Gemini 2.5 Flash 和 Gemini 2.5 Pro 模型中。與 ElevenLabs、OpenAI TTS 最大的差別在於：

音色最多元：提供 30 種音色，涵蓋明亮、穩重、活潑、獨特風格
語言支援最廣：100+ 語言（含繁體中文、廣東話），OpenAI 只有 50 種
即時調整最靈活：可在單一段落內混用多種音色、調整語速（ElevenLabs 需分段處理）
免費試用最友善：Google AI Studio 不需信用卡即可免費使用，付費 API 成本極低（1000 字約 $0.01 美元）

適合誰？需要多語言配音、Podcast 自動化、教學影片旁白、有聲書製作的創作者。

Gemini TTS 的 30 種音色完整清單（中英對照）

Google 官方將 30 種音色分為四大類：

明亮/活潑風格（6 種）

Zephyr（西風）：輕快、年輕女聲
Puck（精靈）：俏皮、靈動感
Leda（麗達）：親切、明亮
Aoede（歌者）：歌唱感、流暢
Autonoe（自由）：活潑、外向
Laomedeia（拉俄墨德亞）：輕盈、愉悅

穩重/清晰風格（6 種）

Charon（卡戎）：沉穩、男性低音
Kore（科瑞）：清晰、專業
Iapetus（伊阿珀托斯）：穩重、權威
Erinome（厄里諾墨）：平穩、中性
Alnilam（參宿二）：清楚、商務感
Schedar（策瑞爾）：沉著、可靠

順暢/隨和風格（6 種）

Callirrhoe（卡莉蘿）：流暢、自然
Umbriel（烏姆柏瑞爾）：溫和、柔順
Algieba（軒轅十二）：平易近人
Despina（德斯皮娜）：輕鬆、友善
Achernar（水委一）：順滑、舒適

獨特風格（12 種，含特殊標籤）

Fenrir (Excitable)：興奮感、熱情
Orus (Firm)：堅定、果斷
Enceladus (Breathy)：氣音、溫柔
Algenib (Gravelly)：沙啞、磁性
Rasalgethi (Informative)：資訊性、教學
Gacrux (Mature)：成熟、穩重
Pulcherrima (Forward)：直接、前衛
Achird (Friendly)：友好、親切
Zubenelgenubi (Casual)：隨意、輕鬆
Vindemiatrix (Gentle)：溫柔、柔和
Sadachbia (Lively)：活潑、生動
Sadaltager (Knowledgeable)：博學、專業
Sulafat (Warm)：溫暖、包容

選擇建議：教學影片用 Rasalgethi，Podcast 用 Zephyr 或 Achird，商務簡報用 Charon 或 Kore。

Gemini TTS 免費試用：用 Google AI Studio 體驗（不需信用卡）

Google AI Studio 是 Google 提供的免費測試平台，可以直接在網頁上試用 Gemini TTS，不需要寫程式碼，也不需要綁定信用卡。

步驟一：進入 Google AI Studio

打開瀏覽器，前往 aistudio.google.com
用你的 Google 帳號登入（建議用個人 Gmail，不要用公司帳號）
登入後會看到主頁，左側有「Create」按鈕

步驟二：建立新的 Prompt（對話視窗）

點擊左側「Create」→ 選擇「New prompt」
畫面中間會出現一個輸入框，標題是「Enter a prompt here」
右側會看到「Model」下拉選單，預設是 Gemini 2.0 Flash
重點：點擊 Model 下拉選單，改選 Gemini 2.5 Flash 或 Gemini 2.5 Pro（只有這兩個支援 TTS）

步驟三：在 Prompt 中啟用 TTS

在輸入框下方，找到「Speech」區塊（可能需要點擊「Show advanced settings」展開）
勾選「Enable text-to-speech」（啟用文字轉語音）
下方會出現「Voice」下拉選單，列出所有 30 種音色
選擇任一音色（例如 Zephyr 或 Achird）

步驟四：輸入文字並生成語音

在輸入框中輸入你想轉成語音的文字，例如：
你好，這是 Gemini TTS 的測試。
點擊右下角「Run」按鈕
Gemini 會生成文字回應，並在回應下方出現播放按鈕（▶️）
點擊播放按鈕，即可聽到 AI 語音
如果想下載，點擊播放器右側的「⋯」（更多選項）→「Download」

注意：免費試用有每日配額限制（約 1500 次請求/天），一般個人使用不會超過。如果看到「Quota exceeded」，等 24 小時後重試。

進階技巧：在同一段落中混用多種音色（對話劇場效果）

Gemini TTS 最強大的功能之一，是可以在同一段文字內切換音色，實現「對話劇場」效果（例如 Podcast 訪談、有聲書角色對話）。

在 Google AI Studio 中實現（文字標記法）

在 Prompt 輸入框中，用 [Voice: 音色名稱] 標記切換點
例如：
[Voice: Zephyr] 歡迎來到今天的節目！ [Voice: Charon] 謝謝主持人，我是今天的來賓。
點擊「Run」，Gemini 會自動在兩段文字間切換音色

在 Python API 中實現（speech_config 參數）

如果使用 API，可以用 speech_config 參數指定多段音色：

response = model.generate_content(
  "主持人：歡迎！來賓：謝謝！",
  generation_config={
    "speech_config": {
      "voice_config": [
        {"voice_name": "Zephyr", "start": 0, "end": 10},
        {"voice_name": "Charon", "start": 10, "end": 20}
      ]
    }
  }
)

實務建議：對話超過 3 個角色時，建議分段生成後用 FFmpeg 合併，否則 API 計費會較高。

Gemini TTS Python 整合完整教學（從安裝到生成音檔）

如果你需要在 Python 專案中批量生成語音（例如自動化 Podcast、批量配音），以下是完整流程。

步驟一：安裝 Google Generative AI SDK

pip install google-generativeai

步驟二：取得 API Key

前往 aistudio.google.com/apikey
點擊「Create API Key」（如果已有則直接複製）
重要：API Key 不要直接寫在程式碼中，改用環境變數：
export GOOGLE_API_KEY="你的API Key"

步驟三：Python 基本範例（生成 WAV 檔案）

import google.generativeai as genai
import os

# 設定 API Key
genai.configure(api_key=os.environ["GOOGLE_API_KEY"])

# 選擇模型（2.5 Flash 或 2.5 Pro）
model = genai.GenerativeModel("gemini-2.5-flash")

# 生成語音
response = model.generate_content(
  "歡迎來到 AI 教學頻道，這是 Gemini TTS 的示範。",
  generation_config={
    "speech_config": {
      "voice_config": {"voice_name": "Zephyr"}
    }
  }
)

# 儲存音檔（response.candidates[0].content.parts[0].inline_data）
audio_data = response.candidates[0].content.parts[0].inline_data.data
with open("output.wav", "wb") as f:
  f.write(audio_data)

print("語音已儲存至 output.wav")

步驟四：進階應用（批量生成 + 語速調整）

texts = [
  "第一段內容",
  "第二段內容",
  "第三段內容"
]

for i, text in enumerate(texts):
  response = model.generate_content(
    text,
    generation_config={
      "speech_config": {
        "voice_config": {"voice_name": "Achird"},
        "speaking_rate": 1.2  # 加快 20%
      }
    }
  )
  audio_data = response.candidates[0].content.parts[0].inline_data.data
  with open(f"segment_{i}.wav", "wb") as f:
    f.write(audio_data)

print("批量生成完成！")

語速範圍：0.5（慢 50%）~ 2.0（快 100%），預設 1.0。

Gemini TTS 定價與成本試算（免費額度 vs 付費 API）

Gemini TTS 提供兩種使用方式：免費試用（Google AI Studio）和付費 API（Google Cloud）。

免費試用額度（2026 年 4 月資料）

Gemini 2.5 Flash：每天 1,500 次請求（足夠一般測試）
Gemini 2.5 Pro：每天 50 次請求（僅供試用）
不需信用卡，登入 Google 帳號即可使用
限制：無法商業使用、每月總額度約 30,000 次請求

付費 API 定價（官方公開資訊）

模型	文字輸入	音頻輸出
Gemini 2.5 Flash TTS	$0.50/百萬 tokens	$10/百萬 tokens
Gemini 2.5 Pro TTS	$1.00/百萬 tokens	$20/百萬 tokens

實際成本試算

1,000 字文章：約 800 tokens（文字）+ 800 tokens（音頻）= 不到 $0.01 美元
10 分鐘 Podcast（約 2,500 字）：約 $0.025 美元
1 小時有聲書（約 15,000 字）：約 $0.15 美元

對比：ElevenLabs 免費 10,000 字/月，付費 $5 起；OpenAI TTS $15/百萬字元。Gemini TTS 成本最低，且有免費額度。

Gemini TTS vs ElevenLabs vs OpenAI TTS：2026 最強比較表

功能	Gemini TTS	ElevenLabs	OpenAI TTS
音色數量	30 種	數百種（含自訂）	6 種
語言支援	100+ 語言	29 種語言	50 種語言
即時調整	✅ 單段混用音色	需分段處理	不支援
免費試用	✅ 不需信用卡	10,000 字/月	需綁卡
付費成本	極低（~$0.01/千字）	$5/月起	$15/百萬字元
情感表達	中等（靠音色區分）	最強（AI克隆）	基本
中文品質	優秀（含繁中）	優秀（但音色少）	良好

結論：多語言 + 低成本 → Gemini TTS；情感豐富 + 英語專業 → ElevenLabs；簡單快速 → OpenAI TTS。

常見問題與排錯（FAQ）

Q1：為什麼我的 Google AI Studio 沒有 TTS 選項？

A：請確認以下三點：

模型選擇必須是 Gemini 2.5 Flash 或 2.5 Pro（2.0 版不支援）
點擊「Show advanced settings」展開進階選項
確認你的 Google 帳號地區不在限制清單（中國大陸不支援）

Q2：API 生成的音檔沒有聲音？

A：檢查以下步驟：

確認 response.candidates[0].content.parts[0] 存在
音檔格式是 inline_data.data（bytes），需用 wb 模式寫檔
如果出現 No audio output 錯誤，代表你的文字太短（至少 5 個字）

Q3：如何把語音轉成 MP3 格式？

A： Gemini TTS 預設輸出是 WAV 格式，可以用 FFmpeg 轉換：

ffmpeg -i output.wav -codec:a libmp3lame -qscale:a 2 output.mp3

或在 Python 中使用 pydub：

from pydub import AudioSegment
audio = AudioSegment.from_wav("output.wav")
audio.export("output.mp3", format="mp3")

Q4：免費額度用完後會自動扣款嗎？

A：不會。Google AI Studio 免費試用不需綁定信用卡，額度用完只會顯示「Quota exceeded」，不會自動轉為付費。付費 API 需在 Google Cloud Console 手動開啟計費。

Q5：Gemini TTS 支援 SSML 語音標記嗎？

A：目前（2026 年 4 月）不支援 SSML，只能透過 speech_config 調整語速和音色。如需精細控制停頓、音調，建議用 ElevenLabs 或 Azure TTS。


┌─────────────────────────────────────────────────────────────┐
│         Gemini TTS 完整工作流程（從文字到音檔）              │
└─────────────────────────────────────────────────────────────┘

 輸入文字（Markdown / 純文字）
    │
    ↓
┌───────────────────────────────────────┐
│ Google AI Studio 免費試用             │  ← 測試階段
│ • 不需信用卡                          │
│ • 30 種音色即時試聽                   │
│ • 每天 1,500 次請求                   │
└───────────────────────────────────────┘
    │
    ↓（決定正式使用）
    │
┌───────────────────────────────────────┐
│ Python API 整合                       │  ← 生產階段
│ • pip install google-generativeai    │
│ • 設定 API Key（環境變數）            │
│ • 指定音色 + 語速                     │
└───────────────────────────────────────┘
    │
    ↓
 生成 WAV 音檔（inline_data.data）
    │
    ↓
┌───────────────────────────────────────┐
│ 後處理（選擇性）                      │
│ • FFmpeg 轉 MP3                       │
│ • 音量正規化                          │
│ • 合併多段音檔                        │
└───────────────────────────────────────┘
    │
    ↓
 最終輸出（Podcast / 有聲書 / 教學影片）

備註：
• 免費額度耗盡 → 等 24 小時重置
• 需商業使用 → 升級 Google Cloud 付費 API
• 成本控制 → 用 Flash 模型（Pro 貴 2 倍）

📚 延伸閱讀：你可能也有興趣

➜ 查看更多 AI 數位應用與雲林房地產分析文章

關於作者：阿宥（雲林 AI 房仲）

我是阿宥，雲林在地房仲，同時也是 AI 工具的重度使用者。每天用 Claude Code、Gemini、NotebookLM 等工具提升工作效率，並在這個網站分享最實用的 AI 教學與雲林房地產分析。

本站特色：所有教學都是我親自測試後才發布，絕不抄襲或捏造數據。如果你在使用 AI 工具時遇到問題，歡迎在文章下方留言，我會盡快回覆！

資料來源：Google Gemini API 官方文件・ Google AI Studio ・ ElevenLabs 官網・ OpenAI TTS 定價頁

🤖 購買 Claude Code 記憶與技能套件，讓 Claude Code 記住你 →

解壓縮 → 拖入 Claude Code → 輸入序號，5 分鐘完成安裝

✅ 套件內含功能：

🧠 雙層記憶系統（跨對話長期記憶，越用越懂你）

🔄 智慧規則載入（自動選最相關規則，省最高 89% Token）

📊 品質評估閘門（文章／程式碼送出前自動評分把關）

⚡ 自動學習任務框架（自動記錯誤→優化流程→持續進化）

🛠️ 11 個內建技能（知識餵養・網頁爬取・每日收尾等）

☁️ Google Drive 雲端同步引導

🔒 單一裝置授權，資料不外傳

原價 NT$1,288

NT$600

前 100 名限定優惠價格

加 LINE 聯繫購買 → 0906707964
📖 了解更多完整介紹 →

每組序號第一裝置限一用・不可轉讓或分享