Gemini TTS 是 Google 在 2026 年推出的文字轉語音 API,整合進 Gemini 2.5 Flash 與 Pro 模型,提供 30 種音色、100+ 語言支援、即時語速調整,完全免費使用(付費 API 有額度限制但成本極低)。本文將帶你從零開始,用 Google AI Studio 免費試用 TTS 功能,並學會在 Python 專案中整合 Gemini TTS API,完整掌握這個 2026 年最靈活的 AI 語音工具。
什麼是 Gemini TTS?和 ElevenLabs、OpenAI TTS 有什麼差別?
Gemini TTS 是 Google 最新推出的文字轉語音功能,整合在 Gemini 2.5 Flash 和 Gemini 2.5 Pro 模型中。與 ElevenLabs、OpenAI TTS 最大的差別在於:
- 音色最多元:提供 30 種音色,涵蓋明亮、穩重、活潑、獨特風格
- 語言支援最廣:100+ 語言(含繁體中文、廣東話),OpenAI 只有 50 種
- 即時調整最靈活:可在 單一段落內混用多種音色、調整語速(ElevenLabs 需分段處理)
- 免費試用最友善:Google AI Studio 不需信用卡即可免費使用,付費 API 成本極低(1000 字約 $0.01 美元)
適合誰? 需要多語言配音、Podcast 自動化、教學影片旁白、有聲書製作的創作者。
Gemini TTS 的 30 種音色完整清單(中英對照)
Google 官方將 30 種音色分為四大類:
明亮/活潑風格(6 種)
- Zephyr(西風):輕快、年輕女聲
- Puck(精靈):俏皮、靈動感
- Leda(麗達):親切、明亮
- Aoede(歌者):歌唱感、流暢
- Autonoe(自由):活潑、外向
- Laomedeia(拉俄墨德亞):輕盈、愉悅
穩重/清晰風格(6 種)
- Charon(卡戎):沉穩、男性低音
- Kore(科瑞):清晰、專業
- Iapetus(伊阿珀托斯):穩重、權威
- Erinome(厄里諾墨):平穩、中性
- Alnilam(參宿二):清楚、商務感
- Schedar(策瑞爾):沉著、可靠
順暢/隨和風格(6 種)
- Callirrhoe(卡莉蘿):流暢、自然
- Umbriel(烏姆柏瑞爾):溫和、柔順
- Algieba(軒轅十二):平易近人
- Despina(德斯皮娜):輕鬆、友善
- Achernar(水委一):順滑、舒適
獨特風格(12 種,含特殊標籤)
- Fenrir (Excitable):興奮感、熱情
- Orus (Firm):堅定、果斷
- Enceladus (Breathy):氣音、溫柔
- Algenib (Gravelly):沙啞、磁性
- Rasalgethi (Informative):資訊性、教學
- Gacrux (Mature):成熟、穩重
- Pulcherrima (Forward):直接、前衛
- Achird (Friendly):友好、親切
- Zubenelgenubi (Casual):隨意、輕鬆
- Vindemiatrix (Gentle):溫柔、柔和
- Sadachbia (Lively):活潑、生動
- Sadaltager (Knowledgeable):博學、專業
- Sulafat (Warm):溫暖、包容
選擇建議:教學影片用 Rasalgethi,Podcast 用 Zephyr 或 Achird,商務簡報用 Charon 或 Kore。
Gemini TTS 免費試用:用 Google AI Studio 體驗(不需信用卡)
Google AI Studio 是 Google 提供的免費測試平台,可以直接在網頁上試用 Gemini TTS,不需要寫程式碼,也不需要綁定信用卡。
步驟一:進入 Google AI Studio
- 打開瀏覽器,前往 aistudio.google.com
- 用你的 Google 帳號登入(建議用個人 Gmail,不要用公司帳號)
- 登入後會看到主頁,左側有「Create」按鈕
步驟二:建立新的 Prompt(對話視窗)
- 點擊左側「Create」→ 選擇「New prompt」
- 畫面中間會出現一個輸入框,標題是「Enter a prompt here」
- 右側會看到「Model」下拉選單,預設是 Gemini 2.0 Flash
- 重點:點擊 Model 下拉選單,改選 Gemini 2.5 Flash 或 Gemini 2.5 Pro(只有這兩個支援 TTS)
步驟三:在 Prompt 中啟用 TTS
- 在輸入框下方,找到「Speech」區塊(可能需要點擊「Show advanced settings」展開)
- 勾選「Enable text-to-speech」(啟用文字轉語音)
- 下方會出現「Voice」下拉選單,列出所有 30 種音色
- 選擇任一音色(例如 Zephyr 或 Achird)
步驟四:輸入文字並生成語音
- 在輸入框中輸入你想轉成語音的文字,例如:
你好,這是 Gemini TTS 的測試。 - 點擊右下角「Run」按鈕
- Gemini 會生成文字回應,並在回應下方出現播放按鈕(▶️)
- 點擊播放按鈕,即可聽到 AI 語音
- 如果想下載,點擊播放器右側的「⋯」(更多選項)→「Download」
注意:免費試用有每日配額限制(約 1500 次請求/天),一般個人使用不會超過。如果看到「Quota exceeded」,等 24 小時後重試。
進階技巧:在同一段落中混用多種音色(對話劇場效果)
Gemini TTS 最強大的功能之一,是可以在同一段文字內切換音色,實現「對話劇場」效果(例如 Podcast 訪談、有聲書角色對話)。
在 Google AI Studio 中實現(文字標記法)
- 在 Prompt 輸入框中,用
[Voice: 音色名稱]標記切換點 - 例如:
[Voice: Zephyr] 歡迎來到今天的節目!
[Voice: Charon] 謝謝主持人,我是今天的來賓。 - 點擊「Run」,Gemini 會自動在兩段文字間切換音色
在 Python API 中實現(speech_config 參數)
如果使用 API,可以用 speech_config 參數指定多段音色:
response = model.generate_content(
"主持人:歡迎!來賓:謝謝!",
generation_config={
"speech_config": {
"voice_config": [
{"voice_name": "Zephyr", "start": 0, "end": 10},
{"voice_name": "Charon", "start": 10, "end": 20}
]
}
}
)實務建議:對話超過 3 個角色時,建議分段生成後用 FFmpeg 合併,否則 API 計費會較高。
Gemini TTS Python 整合完整教學(從安裝到生成音檔)
如果你需要在 Python 專案中批量生成語音(例如自動化 Podcast、批量配音),以下是完整流程。
步驟一:安裝 Google Generative AI SDK
pip install google-generativeai步驟二:取得 API Key
- 前往 aistudio.google.com/apikey
- 點擊「Create API Key」(如果已有則直接複製)
- 重要:API Key 不要直接寫在程式碼中,改用環境變數:
export GOOGLE_API_KEY="你的API Key"
步驟三:Python 基本範例(生成 WAV 檔案)
import google.generativeai as genai
import os
# 設定 API Key
genai.configure(api_key=os.environ["GOOGLE_API_KEY"])
# 選擇模型(2.5 Flash 或 2.5 Pro)
model = genai.GenerativeModel("gemini-2.5-flash")
# 生成語音
response = model.generate_content(
"歡迎來到 AI 教學頻道,這是 Gemini TTS 的示範。",
generation_config={
"speech_config": {
"voice_config": {"voice_name": "Zephyr"}
}
}
)
# 儲存音檔(response.candidates[0].content.parts[0].inline_data)
audio_data = response.candidates[0].content.parts[0].inline_data.data
with open("output.wav", "wb") as f:
f.write(audio_data)
print("語音已儲存至 output.wav")步驟四:進階應用(批量生成 + 語速調整)
texts = [
"第一段內容",
"第二段內容",
"第三段內容"
]
for i, text in enumerate(texts):
response = model.generate_content(
text,
generation_config={
"speech_config": {
"voice_config": {"voice_name": "Achird"},
"speaking_rate": 1.2 # 加快 20%
}
}
)
audio_data = response.candidates[0].content.parts[0].inline_data.data
with open(f"segment_{i}.wav", "wb") as f:
f.write(audio_data)
print("批量生成完成!")語速範圍:0.5(慢 50%)~ 2.0(快 100%),預設 1.0。
Gemini TTS 定價與成本試算(免費額度 vs 付費 API)
Gemini TTS 提供兩種使用方式:免費試用(Google AI Studio) 和 付費 API(Google Cloud)。
免費試用額度(2026 年 4 月資料)
- Gemini 2.5 Flash:每天 1,500 次請求(足夠一般測試)
- Gemini 2.5 Pro:每天 50 次請求(僅供試用)
- 不需信用卡,登入 Google 帳號即可使用
- 限制:無法商業使用、每月總額度約 30,000 次請求
付費 API 定價(官方公開資訊)
| 模型 | 文字輸入 | 音頻輸出 |
|---|---|---|
| Gemini 2.5 Flash TTS | $0.50/百萬 tokens | $10/百萬 tokens |
| Gemini 2.5 Pro TTS | $1.00/百萬 tokens | $20/百萬 tokens |
實際成本試算
- 1,000 字文章:約 800 tokens(文字)+ 800 tokens(音頻)= 不到 $0.01 美元
- 10 分鐘 Podcast(約 2,500 字):約 $0.025 美元
- 1 小時有聲書(約 15,000 字):約 $0.15 美元
對比:ElevenLabs 免費 10,000 字/月,付費 $5 起;OpenAI TTS $15/百萬字元。Gemini TTS 成本最低,且有免費額度。
Gemini TTS vs ElevenLabs vs OpenAI TTS:2026 最強比較表
| 功能 | Gemini TTS | ElevenLabs | OpenAI TTS |
|---|---|---|---|
| 音色數量 | 30 種 | 數百種(含自訂) | 6 種 |
| 語言支援 | 100+ 語言 | 29 種語言 | 50 種語言 |
| 即時調整 | ✅ 單段混用音色 | 需分段處理 | 不支援 |
| 免費試用 | ✅ 不需信用卡 | 10,000 字/月 | 需綁卡 |
| 付費成本 | 極低(~$0.01/千字) | $5/月起 | $15/百萬字元 |
| 情感表達 | 中等(靠音色區分) | 最強(AI克隆) | 基本 |
| 中文品質 | 優秀(含繁中) | 優秀(但音色少) | 良好 |
結論:多語言 + 低成本 → Gemini TTS;情感豐富 + 英語專業 → ElevenLabs;簡單快速 → OpenAI TTS。
常見問題與排錯(FAQ)
Q1:為什麼我的 Google AI Studio 沒有 TTS 選項?
A: 請確認以下三點:
- 模型選擇必須是 Gemini 2.5 Flash 或 2.5 Pro(2.0 版不支援)
- 點擊「Show advanced settings」展開進階選項
- 確認你的 Google 帳號地區不在限制清單(中國大陸不支援)
Q2:API 生成的音檔沒有聲音?
A: 檢查以下步驟:
- 確認
response.candidates[0].content.parts[0]存在 - 音檔格式是
inline_data.data(bytes),需用wb模式寫檔 - 如果出現
No audio output錯誤,代表你的文字太短(至少 5 個字)
Q3:如何把語音轉成 MP3 格式?
A: Gemini TTS 預設輸出是 WAV 格式,可以用 FFmpeg 轉換:
ffmpeg -i output.wav -codec:a libmp3lame -qscale:a 2 output.mp3或在 Python 中使用 pydub:
from pydub import AudioSegment
audio = AudioSegment.from_wav("output.wav")
audio.export("output.mp3", format="mp3")Q4:免費額度用完後會自動扣款嗎?
A: 不會。Google AI Studio 免費試用不需綁定信用卡,額度用完只會顯示「Quota exceeded」,不會自動轉為付費。付費 API 需在 Google Cloud Console 手動開啟計費。
Q5:Gemini TTS 支援 SSML 語音標記嗎?
A: 目前(2026 年 4 月)不支援 SSML,只能透過 speech_config 調整語速和音色。如需精細控制停頓、音調,建議用 ElevenLabs 或 Azure TTS。
┌─────────────────────────────────────────────────────────────┐
│ Gemini TTS 完整工作流程(從文字到音檔) │
└─────────────────────────────────────────────────────────────┘
輸入文字(Markdown / 純文字)
│
↓
┌───────────────────────────────────────┐
│ Google AI Studio 免費試用 │ ← 測試階段
│ • 不需信用卡 │
│ • 30 種音色即時試聽 │
│ • 每天 1,500 次請求 │
└───────────────────────────────────────┘
│
↓(決定正式使用)
│
┌───────────────────────────────────────┐
│ Python API 整合 │ ← 生產階段
│ • pip install google-generativeai │
│ • 設定 API Key(環境變數) │
│ • 指定音色 + 語速 │
└───────────────────────────────────────┘
│
↓
生成 WAV 音檔(inline_data.data)
│
↓
┌───────────────────────────────────────┐
│ 後處理(選擇性) │
│ • FFmpeg 轉 MP3 │
│ • 音量正規化 │
│ • 合併多段音檔 │
└───────────────────────────────────────┘
│
↓
最終輸出(Podcast / 有聲書 / 教學影片)
備註:
• 免費額度耗盡 → 等 24 小時重置
• 需商業使用 → 升級 Google Cloud 付費 API
• 成本控制 → 用 Flash 模型(Pro 貴 2 倍)
📚 延伸閱讀:你可能也有興趣
- KIE.ai 教學:30 秒生成 AI 短影片,完整操作指南
- NotebookLM Audio Overview 教學:免費生成 Podcast 對話音訊
- FLUX 1.1 Pro Ultra 教學:超越 Midjourney 的 AI 圖片生成工具
- Anthropic Prompt Caching 教學:省下 90% 的 API 費用
- Gemini 2.0 Flash Thinking 教學:比 Claude 更快的思考鏈模型
關於作者:阿宥(雲林 AI 房仲)
我是阿宥,雲林在地房仲,同時也是 AI 工具的重度使用者。每天用 Claude Code、Gemini、NotebookLM 等工具提升工作效率,並在這個網站分享最實用的 AI 教學與雲林房地產分析。
本站特色:所有教學都是我親自測試後才發布,絕不抄襲或捏造數據。如果你在使用 AI 工具時遇到問題,歡迎在文章下方留言,我會盡快回覆!
資料來源:Google Gemini API 官方文件 ・ Google AI Studio ・ ElevenLabs 官網 ・ OpenAI TTS 定價頁
解壓縮 → 拖入 Claude Code → 輸入序號,5 分鐘完成安裝
✅ 套件內含功能:
🧠 雙層記憶系統(跨對話長期記憶,越用越懂你)
🔄 智慧規則載入(自動選最相關規則,省最高 89% Token)
📊 品質評估閘門(文章/程式碼送出前自動評分把關)
⚡ 自動學習任務框架(自動記錯誤→優化流程→持續進化)
🛠️ 11 個內建技能(知識餵養・網頁爬取・每日收尾等)
☁️ Google Drive 雲端同步引導
🔒 單一裝置授權,資料不外傳
原價 NT$1,288
NT$600
前 100 名限定優惠價格
每組序號第一裝置限一用・不可轉讓或分享

.png)