cropped 房地產阿宥(AI房仲).png

Gemini 2.5 Flash TTS 完整教學:30種音色、100+語言,免費用 Google 最強 AI 語音生成(2026)

Gemini TTS 是 Google 在 2026 年推出的文字轉語音 API,整合進 Gemini 2.5 Flash 與 Pro 模型,提供 30 種音色、100+ 語言支援、即時語速調整,完全免費使用(付費 API 有額度限制但成本極低)。本文將帶你從零開始,用 Google AI Studio 免費試用 TTS 功能,並學會在 Python 專案中整合 Gemini TTS API,完整掌握這個 2026 年最靈活的 AI 語音工具。

什麼是 Gemini TTS?和 ElevenLabs、OpenAI TTS 有什麼差別?

Gemini TTS 是 Google 最新推出的文字轉語音功能,整合在 Gemini 2.5 Flash 和 Gemini 2.5 Pro 模型中。與 ElevenLabs、OpenAI TTS 最大的差別在於:

  • 音色最多元:提供 30 種音色,涵蓋明亮、穩重、活潑、獨特風格
  • 語言支援最廣:100+ 語言(含繁體中文、廣東話),OpenAI 只有 50 種
  • 即時調整最靈活:可在 單一段落內混用多種音色、調整語速(ElevenLabs 需分段處理)
  • 免費試用最友善:Google AI Studio 不需信用卡即可免費使用,付費 API 成本極低(1000 字約 $0.01 美元)

適合誰? 需要多語言配音、Podcast 自動化、教學影片旁白、有聲書製作的創作者。

Gemini TTS 的 30 種音色完整清單(中英對照)

Google 官方將 30 種音色分為四大類:

明亮/活潑風格(6 種)

  • Zephyr(西風):輕快、年輕女聲
  • Puck(精靈):俏皮、靈動感
  • Leda(麗達):親切、明亮
  • Aoede(歌者):歌唱感、流暢
  • Autonoe(自由):活潑、外向
  • Laomedeia(拉俄墨德亞):輕盈、愉悅

穩重/清晰風格(6 種)

  • Charon(卡戎):沉穩、男性低音
  • Kore(科瑞):清晰、專業
  • Iapetus(伊阿珀托斯):穩重、權威
  • Erinome(厄里諾墨):平穩、中性
  • Alnilam(參宿二):清楚、商務感
  • Schedar(策瑞爾):沉著、可靠

順暢/隨和風格(6 種)

  • Callirrhoe(卡莉蘿):流暢、自然
  • Umbriel(烏姆柏瑞爾):溫和、柔順
  • Algieba(軒轅十二):平易近人
  • Despina(德斯皮娜):輕鬆、友善
  • Achernar(水委一):順滑、舒適

獨特風格(12 種,含特殊標籤)

  • Fenrir (Excitable):興奮感、熱情
  • Orus (Firm):堅定、果斷
  • Enceladus (Breathy):氣音、溫柔
  • Algenib (Gravelly):沙啞、磁性
  • Rasalgethi (Informative):資訊性、教學
  • Gacrux (Mature):成熟、穩重
  • Pulcherrima (Forward):直接、前衛
  • Achird (Friendly):友好、親切
  • Zubenelgenubi (Casual):隨意、輕鬆
  • Vindemiatrix (Gentle):溫柔、柔和
  • Sadachbia (Lively):活潑、生動
  • Sadaltager (Knowledgeable):博學、專業
  • Sulafat (Warm):溫暖、包容

選擇建議:教學影片用 Rasalgethi,Podcast 用 ZephyrAchird,商務簡報用 CharonKore

Gemini TTS 免費試用:用 Google AI Studio 體驗(不需信用卡)

Google AI Studio 是 Google 提供的免費測試平台,可以直接在網頁上試用 Gemini TTS,不需要寫程式碼,也不需要綁定信用卡。

步驟一:進入 Google AI Studio

  1. 打開瀏覽器,前往 aistudio.google.com
  2. 用你的 Google 帳號登入(建議用個人 Gmail,不要用公司帳號)
  3. 登入後會看到主頁,左側有「Create」按鈕

步驟二:建立新的 Prompt(對話視窗)

  1. 點擊左側「Create」→ 選擇「New prompt」
  2. 畫面中間會出現一個輸入框,標題是「Enter a prompt here」
  3. 右側會看到「Model」下拉選單,預設是 Gemini 2.0 Flash
  4. 重點:點擊 Model 下拉選單,改選 Gemini 2.5 FlashGemini 2.5 Pro(只有這兩個支援 TTS)

步驟三:在 Prompt 中啟用 TTS

  1. 在輸入框下方,找到「Speech」區塊(可能需要點擊「Show advanced settings」展開)
  2. 勾選「Enable text-to-speech」(啟用文字轉語音)
  3. 下方會出現「Voice」下拉選單,列出所有 30 種音色
  4. 選擇任一音色(例如 ZephyrAchird

步驟四:輸入文字並生成語音

  1. 在輸入框中輸入你想轉成語音的文字,例如:
    你好,這是 Gemini TTS 的測試。
  2. 點擊右下角「Run」按鈕
  3. Gemini 會生成文字回應,並在回應下方出現播放按鈕(▶️)
  4. 點擊播放按鈕,即可聽到 AI 語音
  5. 如果想下載,點擊播放器右側的「⋯」(更多選項)→「Download」

注意:免費試用有每日配額限制(約 1500 次請求/天),一般個人使用不會超過。如果看到「Quota exceeded」,等 24 小時後重試。

進階技巧:在同一段落中混用多種音色(對話劇場效果)

Gemini TTS 最強大的功能之一,是可以在同一段文字內切換音色,實現「對話劇場」效果(例如 Podcast 訪談、有聲書角色對話)。

在 Google AI Studio 中實現(文字標記法)

  1. 在 Prompt 輸入框中,用 [Voice: 音色名稱] 標記切換點
  2. 例如:
    [Voice: Zephyr] 歡迎來到今天的節目!
    [Voice: Charon] 謝謝主持人,我是今天的來賓。
  3. 點擊「Run」,Gemini 會自動在兩段文字間切換音色

在 Python API 中實現(speech_config 參數)

如果使用 API,可以用 speech_config 參數指定多段音色:

response = model.generate_content(
  "主持人:歡迎!來賓:謝謝!",
  generation_config={
    "speech_config": {
      "voice_config": [
        {"voice_name": "Zephyr", "start": 0, "end": 10},
        {"voice_name": "Charon", "start": 10, "end": 20}
      ]
    }
  }
)

實務建議:對話超過 3 個角色時,建議分段生成後用 FFmpeg 合併,否則 API 計費會較高。

Gemini TTS Python 整合完整教學(從安裝到生成音檔)

如果你需要在 Python 專案中批量生成語音(例如自動化 Podcast、批量配音),以下是完整流程。

步驟一:安裝 Google Generative AI SDK

pip install google-generativeai

步驟二:取得 API Key

  1. 前往 aistudio.google.com/apikey
  2. 點擊「Create API Key」(如果已有則直接複製)
  3. 重要:API Key 不要直接寫在程式碼中,改用環境變數:
    export GOOGLE_API_KEY="你的API Key"

步驟三:Python 基本範例(生成 WAV 檔案)

import google.generativeai as genai
import os

# 設定 API Key
genai.configure(api_key=os.environ["GOOGLE_API_KEY"])

# 選擇模型(2.5 Flash 或 2.5 Pro)
model = genai.GenerativeModel("gemini-2.5-flash")

# 生成語音
response = model.generate_content(
  "歡迎來到 AI 教學頻道,這是 Gemini TTS 的示範。",
  generation_config={
    "speech_config": {
      "voice_config": {"voice_name": "Zephyr"}
    }
  }
)

# 儲存音檔(response.candidates[0].content.parts[0].inline_data)
audio_data = response.candidates[0].content.parts[0].inline_data.data
with open("output.wav", "wb") as f:
  f.write(audio_data)

print("語音已儲存至 output.wav")

步驟四:進階應用(批量生成 + 語速調整)

texts = [
  "第一段內容",
  "第二段內容",
  "第三段內容"
]

for i, text in enumerate(texts):
  response = model.generate_content(
    text,
    generation_config={
      "speech_config": {
        "voice_config": {"voice_name": "Achird"},
        "speaking_rate": 1.2  # 加快 20%
      }
    }
  )
  audio_data = response.candidates[0].content.parts[0].inline_data.data
  with open(f"segment_{i}.wav", "wb") as f:
    f.write(audio_data)

print("批量生成完成!")

語速範圍:0.5(慢 50%)~ 2.0(快 100%),預設 1.0。

Gemini TTS 定價與成本試算(免費額度 vs 付費 API)

Gemini TTS 提供兩種使用方式:免費試用(Google AI Studio)付費 API(Google Cloud)

免費試用額度(2026 年 4 月資料)

  • Gemini 2.5 Flash:每天 1,500 次請求(足夠一般測試)
  • Gemini 2.5 Pro:每天 50 次請求(僅供試用)
  • 不需信用卡,登入 Google 帳號即可使用
  • 限制:無法商業使用、每月總額度約 30,000 次請求

付費 API 定價(官方公開資訊)

模型文字輸入音頻輸出
Gemini 2.5 Flash TTS$0.50/百萬 tokens$10/百萬 tokens
Gemini 2.5 Pro TTS$1.00/百萬 tokens$20/百萬 tokens

實際成本試算

  • 1,000 字文章:約 800 tokens(文字)+ 800 tokens(音頻)= 不到 $0.01 美元
  • 10 分鐘 Podcast(約 2,500 字):約 $0.025 美元
  • 1 小時有聲書(約 15,000 字):約 $0.15 美元

對比:ElevenLabs 免費 10,000 字/月,付費 $5 起;OpenAI TTS $15/百萬字元。Gemini TTS 成本最低,且有免費額度。

Gemini TTS vs ElevenLabs vs OpenAI TTS:2026 最強比較表

功能Gemini TTSElevenLabsOpenAI TTS
音色數量30 種數百種(含自訂)6 種
語言支援100+ 語言29 種語言50 種語言
即時調整✅ 單段混用音色需分段處理不支援
免費試用✅ 不需信用卡10,000 字/月需綁卡
付費成本極低(~$0.01/千字)$5/月起$15/百萬字元
情感表達中等(靠音色區分)最強(AI克隆)基本
中文品質優秀(含繁中)優秀(但音色少)良好

結論多語言 + 低成本 → Gemini TTS;情感豐富 + 英語專業 → ElevenLabs;簡單快速 → OpenAI TTS。

常見問題與排錯(FAQ)

Q1:為什麼我的 Google AI Studio 沒有 TTS 選項?

A: 請確認以下三點:

  • 模型選擇必須是 Gemini 2.5 Flash 或 2.5 Pro(2.0 版不支援)
  • 點擊「Show advanced settings」展開進階選項
  • 確認你的 Google 帳號地區不在限制清單(中國大陸不支援)

Q2:API 生成的音檔沒有聲音?

A: 檢查以下步驟:

  • 確認 response.candidates[0].content.parts[0] 存在
  • 音檔格式是 inline_data.data(bytes),需用 wb 模式寫檔
  • 如果出現 No audio output 錯誤,代表你的文字太短(至少 5 個字)

Q3:如何把語音轉成 MP3 格式?

A: Gemini TTS 預設輸出是 WAV 格式,可以用 FFmpeg 轉換:

ffmpeg -i output.wav -codec:a libmp3lame -qscale:a 2 output.mp3

或在 Python 中使用 pydub

from pydub import AudioSegment
audio = AudioSegment.from_wav("output.wav")
audio.export("output.mp3", format="mp3")

Q4:免費額度用完後會自動扣款嗎?

A: 不會。Google AI Studio 免費試用不需綁定信用卡,額度用完只會顯示「Quota exceeded」,不會自動轉為付費。付費 API 需在 Google Cloud Console 手動開啟計費。

Q5:Gemini TTS 支援 SSML 語音標記嗎?

A: 目前(2026 年 4 月)不支援 SSML,只能透過 speech_config 調整語速和音色。如需精細控制停頓、音調,建議用 ElevenLabs 或 Azure TTS。


┌─────────────────────────────────────────────────────────────┐
│         Gemini TTS 完整工作流程(從文字到音檔)              │
└─────────────────────────────────────────────────────────────┘

 輸入文字(Markdown / 純文字)
    │
    ↓
┌───────────────────────────────────────┐
│ Google AI Studio 免費試用             │  ← 測試階段
│ • 不需信用卡                          │
│ • 30 種音色即時試聽                   │
│ • 每天 1,500 次請求                   │
└───────────────────────────────────────┘
    │
    ↓(決定正式使用)
    │
┌───────────────────────────────────────┐
│ Python API 整合                       │  ← 生產階段
│ • pip install google-generativeai    │
│ • 設定 API Key(環境變數)            │
│ • 指定音色 + 語速                     │
└───────────────────────────────────────┘
    │
    ↓
 生成 WAV 音檔(inline_data.data)
    │
    ↓
┌───────────────────────────────────────┐
│ 後處理(選擇性)                      │
│ • FFmpeg 轉 MP3                       │
│ • 音量正規化                          │
│ • 合併多段音檔                        │
└───────────────────────────────────────┘
    │
    ↓
 最終輸出(Podcast / 有聲書 / 教學影片)

備註:
• 免費額度耗盡 → 等 24 小時重置
• 需商業使用 → 升級 Google Cloud 付費 API
• 成本控制 → 用 Flash 模型(Pro 貴 2 倍)

📚 延伸閱讀:你可能也有興趣

➜ 查看更多 AI 數位應用與雲林房地產分析文章


關於作者:阿宥(雲林 AI 房仲)

我是阿宥,雲林在地房仲,同時也是 AI 工具的重度使用者。每天用 Claude Code、Gemini、NotebookLM 等工具提升工作效率,並在這個網站分享最實用的 AI 教學雲林房地產分析

本站特色:所有教學都是我親自測試後才發布,絕不抄襲或捏造數據。如果你在使用 AI 工具時遇到問題,歡迎在文章下方留言,我會盡快回覆!


資料來源:Google Gemini API 官方文件Google AI Studio ・ ElevenLabs 官網 ・ OpenAI TTS 定價頁


🤖 購買 Claude Code 記憶與技能套件,讓 Claude Code 記住你 →

解壓縮 → 拖入 Claude Code → 輸入序號,5 分鐘完成安裝

✅ 套件內含功能:

🧠 雙層記憶系統(跨對話長期記憶,越用越懂你)

🔄 智慧規則載入(自動選最相關規則,省最高 89% Token)

📊 品質評估閘門(文章/程式碼送出前自動評分把關)

⚡ 自動學習任務框架(自動記錯誤→優化流程→持續進化)

🛠️ 11 個內建技能(知識餵養・網頁爬取・每日收尾等)

☁️ Google Drive 雲端同步引導

🔒 單一裝置授權,資料不外傳

原價 NT$1,288

NT$600

前 100 名限定優惠價格

每組序號第一裝置限一用・不可轉讓或分享

Compare Listings

TitlePriceStatusTypeAreaPurposeBedroomsBathrooms

Compare