Gemma 4 教學看這篇就夠!這是 Google 在 2026 年 4 月發布的最強開源 AI 模型,免費、可本地跑、還能看圖片聽音訊。不管你是第一次接觸 AI、還是想把 AI 裝進自己電腦的人,本文帶你從「什麼是 Gemma 4」一路做到「讓 AI 幫你分析圖片」,一步都不跳過。
📌 本文涵蓋:Gemma 4 各版本比較 | 硬體需求說明 | Ollama 零基礎安裝教學 | HuggingFace 線上體驗 | 多模態(圖片+音訊)實戰 | 常見問題 FAQ
什麼是 Gemma 4?為什麼 Google 要做這個?
2026 年 4 月 2 日,Google DeepMind 宣布了一件大事:他們把旗艦 AI 模型 Gemini 3 的核心技術「開源」了。這個開源版本,就叫做 Gemma 4。
聽起來抽象嗎?讓我用現實世界比喻一下:
想像 Gemini 3 是 Tesla 的電動車核心技術,只有 Tesla 自己能用。但 Google 現在做的事,等於是把核心引擎的設計圖免費發出去,讓全世界所有人都能拿來自己做電動車。這就是 Gemma 4 的本質。
那,在 Gemma 4 出現之前,我們碰到了什麼問題?
- ✅ 強大的 AI 模型(GPT-4、Claude 3.5 等)都要付費訂閱,一個月幾百元台幣
- ✅ 免費的本地模型(如 Llama 3)功能偏弱,不支援看圖、聽音訊
- ✅ 資料隱私問題:把內容傳給 OpenAI 的伺服器,不確定資料怎麼被使用
Gemma 4 一次解決了這三個痛點:完全免費、可在本地電腦執行、支援圖片+音訊多模態,而且效能比上一代 Gemma 3 提升數倍。
【Gemma 4 誕生的底層邏輯】
你 ──────────────→ Gemma 4 模型
(給問題/圖片/音訊) │
│ 在你自己電腦執行
↓
AI 回應結果(完全不經過 Google 伺服器)
傳統流程(ChatGPT):
你 → 網路 → OpenAI 雲端伺服器 → 回應 → 你
↑ 每次都要付費 + 資料上傳
這張圖說明了最關鍵的差異:你和 Gemma 4 之間,不需要任何中間人。
📌 【名詞解釋】開源(Open Source)
白話定義:把軟體的程式碼或 AI 模型的完整設計公開,讓任何人都可以免費下載、使用、修改
具體功能:任何人都可以下載 Gemma 4 的完整模型檔,在自己電腦跑起來,不需要付費
選擇理由:因為 Gemma 4 採 Apache 2.0 授權,商業使用也完全免費,沒有隱藏費用
底層邏輯:Google 把「模型權重(weights)」公開——這是 AI 的核心,相當於大腦的神經連結數值,有這個就能在任何電腦上執行同樣的 AI 能力
Gemma 4 版本大比拼:E2B、E4B、26B、31B 你該選哪個?
Gemma 4 共有 4 種大小,從最輕巧的「隨手機都能跑」到「需要高階 GPU」,差異非常大。選對版本,才不會下載了跑不動。
| 型號 | 實際參數量 | 記憶體需求 | 特色 | 適合誰 |
|---|---|---|---|---|
| Gemma 4 E2B | 2.3B(約 2.3 億) | 4 GB RAM 以上 | 支援圖片+音訊,128K 上下文 | 手機、老電腦、樹莓派 |
| Gemma 4 E4B | 4.5B(約 4.5 億) | 8 GB RAM 以上 | 支援圖片+音訊,128K 上下文 | 一般筆電(入門首選) |
| Gemma 4 26B-A4B | 26B 但只啟用 4B | 16 GB RAM 以上 | MoE 架構,效率最高,256K 上下文 | M2/M3 MacBook、RTX 3080 以上 |
| Gemma 4 31B | 31B(約 310 億) | 32 GB RAM 以上 | 最高精度,256K 上下文 | 工作站、高階 GPU 伺服器 |
💡 給新手的建議:如果你有 8 GB 記憶體的筆電(MacBook Air 2022 以上、或大多數現代 Windows 筆電),就選 Gemma 4 E4B——品質夠好、速度也夠快,不需要大費周章。
如果你有 Apple Silicon(M2 以上)或 16 GB 以上記憶體,可以升級到 26B-A4B,體驗接近頂級 AI 的回應品質。
📌 【名詞解釋】MoE(Mixture of Experts,混合專家架構)
白話定義:一種 AI 模型設計方式,雖然總參數量很大,但每次推理只啟動其中一小部分「專家網路」來回應
具體功能:讓 26B 的大模型,只用 4B 的計算量就完成推理,既準確又省資源
選擇理由:Gemma 4 26B-A4B 就是用這個架構:名義上有 260 億參數,但執行時只啟動 40 億,效率是傳統模型的 6 倍
底層邏輯:輸入一個問題時,模型的「路由器(Router)」自動決定哪幾個「專家子網路」最適合回答,只啟動那幾個,其他的閒置不動
你的電腦能跑嗎?Gemma 4 硬體需求完整說明
很多人下載前最怕的問題就是:「我的電腦會不會太舊?」這裡幫你一次說清楚。
什麼東西影響 Gemma 4 的執行速度?
- 🔵 RAM(記憶體):最重要。模型整個要載入記憶體才能執行。8 GB 跑 E4B,16 GB 跑 26B
- 🟠 CPU 或 GPU:沒有 GPU 也能跑,但速度較慢。Apple Silicon(M 系列晶片)最推薦,因為 CPU/GPU 共用記憶體
- 🟢 磁碟空間:E4B 大約 2.6 GB,26B 大約 16 GB,下載前確認有空間
各類電腦的實測執行速度估算:
裝置類型 推薦版本 每秒 Token 速度(估算)
────────────────────────────────────────────────────────
Apple M2 MacBook Air 8GB E4B 約 15-25 tok/s ⚡
Apple M3 MacBook Pro 16GB 26B-A4B 約 25-40 tok/s ⚡⚡
Windows 筆電 8GB RAM E4B 約 5-10 tok/s ✅
Windows 筆電 16GB RAM 26B-A4B 約 10-15 tok/s ✅
RTX 3080 GPU (10GB VRAM) 26B-A4B 約 40-60 tok/s ⚡⚡⚡
無 GPU、8GB RAM E2B 約 3-6 tok/s (可用)
────────────────────────────────────────────────────────
參考基準:ChatGPT 雲端速度約 60-80 tok/s
⚠️ 特別提醒:Apple Silicon 的 M 系列晶片因為 CPU 和 GPU 共用統一記憶體,在跑本地 AI 模型時效率遠超同 RAM 容量的 Windows 筆電。如果你有 M2 或以上的 MacBook,Ollama 跑起來會出乎意料地順暢。
方法一:Ollama 安裝教學(零基礎最推薦,5 分鐘完成)
Ollama 是目前跑本地 AI 模型最簡單的工具。你不需要懂 Python、不需要設定環境變數,只需要幾個指令就能讓 Gemma 4 在自己電腦跑起來。
前置準備(3 分鐘):
步驟 1:下載並安裝 Ollama
- 用瀏覽器打開
https://ollama.com/download - 根據你的作業系統,點擊對應的下載按鈕:
- macOS:點擊「Download for macOS」→ 下載完後直接打開 .dmg 檔案安裝
- Windows:點擊「Download for Windows」→ 下載 .exe 安裝程式,雙擊執行
- Linux:在終端機執行:
curl -fsSL https://ollama.com/install.sh | sh
- 安裝完成後,你應該看到:macOS 右上角出現 Ollama 的羊駝圖示(🦙),或 Windows 的系統匣出現圖示
✅ 看到羊駝圖示才算成功。如果沒有,重新執行安裝程式。
步驟 2:打開終端機(命令列)
- macOS:按下 Command + 空白鍵 搜尋「終端機(Terminal)」,按 Enter 打開
- Windows:按 Windows 鍵 + R,輸入
cmd,按 Enter 打開命令提示字元 - Linux:按 Ctrl + Alt + T 打開終端機
✅ 看到命令列閃爍的游標才算成功。
步驟 3:下載 Gemma 4 模型
在終端機輸入以下指令(根據你的電腦選一個):
8 GB RAM 以下 → 選 E4B(推薦入門):
ollama pull gemma4:e4b16 GB RAM / Apple M2 以上 → 選 26B-A4B(效能更好):
ollama pull gemma4:26b-a4b⚠️ 這個步驟會下載模型檔(約 2.6 GB~16 GB),需要等待下載完成。速度取決於你的網路。看到 100% ████████ 進度條跑完才算成功。
✅ 看到「success」或回到命令行提示符才算成功。
步驟 4:啟動對話
在終端機輸入:
ollama run gemma4:e4b(如果你下載的是 26B,把 e4b 改成 26b-a4b)
看到 >>> 提示符出現,代表 AI 已經啟動,等待你輸入問題。
試著輸入:你好,可以用繁體中文和我說話嗎? 然後按 Enter。
✅ AI 用繁體中文回應你才算成功。 按 Ctrl + D 可以退出對話。
常見問題排解:
- ❓
ollama: command not found→ 代表 Ollama 沒有正確安裝,重新安裝一次 - ❓ 下載很慢 → 正常,耐心等待;也可以用 VPN 加速
- ❓ 記憶體不足錯誤 → 換成更小的版本(e4b 改成 e2b)
📌 【名詞解釋】Ollama
白話定義:一個讓你在自己電腦上,用一條指令就能跑大型語言模型的免費工具
具體功能:自動管理模型下載、執行、記憶體分配,讓非技術用戶也能輕鬆使用本地 AI
選擇理由:相比手動設定 Python 環境、下載模型檔、配置硬體加速,Ollama 把所有複雜設定自動化,安裝後 3 分鐘內就能開始對話
底層邏輯:Ollama 在你電腦上啟動一個本地 HTTP 伺服器(通常在 localhost:11434),接收你的文字輸入,呼叫模型推理引擎,再把結果傳回來顯示
方法二:HuggingFace 線上體驗(不安裝任何東西,秒開)
如果你只是想快速試試看 Gemma 4 的能力,不想在電腦上安裝任何東西,可以直接用 HuggingFace 的線上 Demo 體驗。
這個方法完全免費,但有使用次數限制,適合快速測試不適合長期使用。
步驟 1:打開 HuggingFace Spaces
根據你的需求,選擇以下其中一個連結打開:
- Gemma 4 E4B(輕量版,回應較快):前往 HuggingFace Spaces 搜尋
gemma-4-e4b-it - Gemma 4 26B(完整版,回應品質更好):搜尋
gemma-4-26b-a4b-it
⚠️ 這些 Spaces 是由社群維護的,如果服務繁忙可能需要排隊。
步驟 2:登入 HuggingFace 帳號
- 打開
https://huggingface.co - 點擊右上角的「Sign Up」建立免費帳號(只需要 Email)
- 建立完成後,回到 Spaces 頁面,點擊登入
✅ 看到右上角顯示你的用戶名稱才算登入成功。
步驟 3:開始對話
- 在 Space 頁面底部的輸入框,輸入你的問題
- 按下 Enter 或點擊「送出」按鈕
- 等待 AI 回應(第一次可能較慢,後續會加速)
⚠️ 線上版 vs 本地版的差異:
| 比較項目 | HuggingFace 線上 | Ollama 本地 |
|---|---|---|
| 安裝需求 | ✅ 不需要 | 需要下載 Ollama |
| 資料隱私 | ⚠️ 資料上傳到 HF 伺服器 | ✅ 完全在本地執行 |
| 速度 | 取決於 HF 伺服器負載 | 取決於你的硬體 |
| 使用限制 | 有次數/排隊限制 | ✅ 無限使用 |
方法三:Python Transformers(開發者進階使用)
如果你是開發者,想把 Gemma 4 整合進自己的程式或自動化流程,可以透過 Hugging Face 的 Transformers 函式庫直接呼叫。
前置準備
# 安裝必要套件(在終端機執行)
pip install -U transformers accelerate torch基本使用範例(文字對話)
from transformers import pipeline
# 初始化 pipeline(第一次會下載模型,需要等待)
pipe = pipeline(
"image-text-to-text",
model="google/gemma-4-e4b-it", # 可換成 e2b-it 或 27b-it
device="cpu" # 沒有 GPU 就用 cpu;有 GPU 用 "cuda"
)
# 對話
messages = [
{
"role": "user",
"content": [
{"type": "text", "text": "請用繁體中文介紹你自己"}
]
}
]
result = pipe(messages, max_new_tokens=500)
print(result[0]["generated_text"][-1]["content"])看圖片範例
messages = [
{
"role": "user",
"content": [
{"type": "image", "url": "https://example.com/your-image.jpg"},
{"type": "text", "text": "請描述這張圖片裡有什麼?用繁體中文回答"}
]
}
]
result = pipe(messages, max_new_tokens=500)
print(result[0]["generated_text"][-1]["content"])⚠️ 注意:第一次執行 Transformers 方法時,模型會自動下載到你的電腦(位置:~/.cache/huggingface/),Gemma 4 E4B 約 2.6 GB。確認磁碟空間充足再執行。
多模態實戰:讓 Gemma 4 幫你看圖片、聽音訊、分析影片
這是 Gemma 4 最讓人興奮的功能——它不只能讀文字,還能理解圖片、音訊和影片。這讓本地 AI 的應用場景瞬間擴大了十倍。
📸 功能一:圖片理解(所有版本都支援)
Gemma 4 所有版本(E2B、E4B、26B、31B)都能「看」圖片。你可以拿來做:
- 📄 OCR(圖片轉文字):把書本、發票、名片的照片,提取成可編輯文字
- 📊 資料分析:把截圖貼給 AI,讓它解讀圖表、表格
- 🏠 物件識別:「這張圖裡有什麼?」「這個物體叫什麼?」
- 🔍 HTML 生成:給 AI 一張網頁設計截圖,讓它直接寫 HTML 程式碼
Ollama 圖片分析使用方式:
在 Ollama 終端機對話中,直接輸入圖片路徑:
ollama run gemma4:e4b "請描述這張圖片" --image /path/to/your/image.jpg或者用 API 方式(在別的程式裡呼叫):
curl http://localhost:11434/api/generate -d '{
"model": "gemma4:e4b",
"prompt": "這張圖片裡有什麼?請用繁體中文回答",
"images": ["base64_encoded_image_data"]
}'🎵 功能二:音訊理解(E2B 和 E4B 才有)
這是 Gemma 4 最獨特的功能:E2B 和 E4B 版本可以直接聽音訊檔,理解裡面說了什麼。應用場景包括:
- 🎙️ 會議錄音轉文字與摘要
- 📞 客服電話分析
- 🗣️ 語言學習(判斷發音是否正確)
Python 範例:
from transformers import pipeline
pipe = pipeline("image-text-to-text", model="google/gemma-4-e2b-it")
messages = [
{
"role": "user",
"content": [
{"type": "audio", "url": "https://example.com/meeting-recording.mp3"},
{"type": "text", "text": "請把這段音訊的內容摘要成繁體中文,重點條列"}
]
}
]
result = pipe(messages, load_audio=True, max_new_tokens=1000)
print(result[0]["generated_text"][-1]["content"])🎬 功能三:影片理解(E2B 和 E4B 才有)
Gemma 4 的小模型還能理解影片!(這在開源模型中非常罕見)
messages = [
{
"role": "user",
"content": [
{"type": "video", "url": "https://example.com/tutorial-video.mp4"},
{"type": "text", "text": "這部影片示範了什麼操作步驟?請用繁體中文條列整理"}
]
}
]
result = pipe(messages, max_new_tokens=1000)
print(result[0]["generated_text"][-1]["content"])
【Gemma 4 多模態能力總覽】
輸入類型 E2B E4B 26B-A4B 31B
────────────────────────────────────────
文字 ✅ ✅ ✅ ✅
圖片 ✅ ✅ ✅ ✅
音訊 ✅ ✅ ❌ ❌
影片 ✅ ✅ ❌ ❌
────────────────────────────────────────
上下文長度 128K 128K 256K 256K
推理模式 可開 可開 可開 可開
────────────────────────────────────────
*推理模式(Thinking Mode)= AI 在回答前先「想一想」,適合複雜問題
Gemma 4 vs 其他開源模型:你應該選哪個?
開源模型的市場在 2026 年爆發式成長,除了 Gemma 4,還有哪些選擇?讓我們比較主要競爭者:
| 模型 | 最小版本需求 | 多模態 | 授權費用 | 中文能力 | 最適合 |
|---|---|---|---|---|---|
| Gemma 4 E4B ⭐ | 8 GB RAM | ✅ 圖片+音訊+影片 | ✅ Apache 2.0 免費 | ⭐⭐⭐⭐ | 入門首選 |
| Llama 4 Scout | 8 GB RAM | ✅ 圖片 | ⚠️ Meta 授權(商業需申請) | ⭐⭐⭐ | 英文應用 |
| Qwen 2.5 VL 7B | 10 GB RAM | ✅ 圖片 | ✅ Apache 2.0 免費 | ⭐⭐⭐⭐⭐ | 中文優先 |
| Mistral Small | 8 GB RAM | ❌ 文字限定 | ✅ Apache 2.0 免費 | ⭐⭐⭐ | 純文字任務 |
| Phi-4(微軟) | 6 GB RAM | ⚠️ 僅部分版本 | ✅ MIT 免費 | ⭐⭐⭐ | 低階硬體 |
結論:如果你的電腦有 8 GB 記憶體、想要最全面的多模態能力、又希望商業使用完全免費,Gemma 4 E4B 目前是最均衡的選擇。
如果你需要更強的中文能力(例如寫繁體中文文章),可以搭配 Qwen 2.5 VL。如果是純英文工程任務,Llama 4 也是好選擇。
💡 實用技巧:用 Ollama 可以同時管理多個模型,不同任務切換不同模型,不需要解除安裝重新下載。指令如下:
# 切換到 Qwen 模型
ollama run qwen2.5:7b
# 切換回 Gemma 4
ollama run gemma4:e4b❓ 常見問題 FAQ
Q1:Gemma 4 是完全免費的嗎?有沒有隱藏費用?
完全免費。Gemma 4 採用 Apache 2.0 授權,個人使用和商業使用都免費,下載模型不需要付費,執行在本地電腦也不需要任何訂閱費。唯一的成本是你的電腦電費和網路下載流量。
Q2:Gemma 4 可以說繁體中文嗎?
可以,而且品質不錯。Gemma 4 在訓練時包含超過 140 種語言的資料,其中包含繁體中文。在實際測試中,Gemma 4 26B-A4B 的繁體中文輸出品質達到 ChatGPT-3.5 的水準。如果想要最好的繁體中文輸出,建議用 26B-A4B 版本。
Q3:Gemma 4 和 ChatGPT 比,差多少?
這個問題取決於你用的是哪個版本。Gemma 4 E4B(最小可用版)大約相當於 GPT-3.5 的水準;Gemma 4 26B-A4B 接近 GPT-4 mini;Gemma 4 31B 在某些任務上可以匹敵 GPT-4。對於日常對話、文章摘要、程式碼生成,Gemma 4 26B-A4B 已經能滿足大多數需求。
Q4:安裝 Ollama 有風險嗎?會不會影響電腦效能?
沒有風險。Ollama 是開源工具,在 GitHub 上有完整程式碼可以審查。安裝後它只在你需要的時候啟動,不會常駐背景佔用資源。如果不想要了,卸載很簡單:macOS 直接把應用程式移到垃圾桶,Windows 從控制台解除安裝,模型檔案在 ~/.ollama 資料夾可以直接刪除。
Q5:Gemma 4 支援哪些格式的圖片和音訊檔案?
圖片:支援 JPEG、PNG、WebP、GIF(靜態)等常見格式。音訊:支援 MP3、WAV、M4A、FLAC 等常見格式,E2B 和 E4B 版本才有音訊功能。影片:支援 MP4、AVI、MOV 等格式,但建議長度不超過 2 分鐘(超長影片會消耗大量記憶體)。
阿宥|AI 工具實測者 × 雲林在地房仲
每天實際使用 AI 工具,只寫用過才推薦的教學。目標:用 AI 讓生活更有效率,讓廣告費留在自己口袋。目前經營 Threads @ayu.ai.house,歡迎追蹤交流。
📚 延伸閱讀:你可能也有興趣
- 【2026年04月15日】斗六市房地產市場分析|穩健發展
- Chrome Skills 教學:Google瀏覽器一鍵AI工作流程完整攻略(2026)
- 廣告帳戶健檢工具 Claude Ads 完整教學:7大平台、250項自動檢查,60秒出健康分數
- 【2026年04月14日】虎尾鎮房地產市場觀察|生活機能持續提升
- Claude Code Roblox 教學:用 AI 做出多人遊戲並上架賺錢,完整流程(2026)
資料來源:HuggingFace Gemma 4 官方介紹・Google AI for Developers Gemma 文件・Ollama Gemma 4 頁面
解壓縮 → 拖入 Claude Code → 輸入序號,5 分鐘完成安裝
✅ 套件內含功能:
🧠 雙層記憶系統(跨對話長期記憶,越用越懂你)
🔄 智慧規則載入(自動選最相關規則,省最高 89% Token)
📊 品質評估閘門(文章/程式碼送出前自動評分把關)
⚡ 自動學習任務框架(自動記錯誤→優化流程→持續進化)
🛠️ 11 個內建技能(知識餵養・網頁爬取・每日收尾等)
☁️ Google Drive 雲端同步引導
🔒 單一裝置授權,資料不外傳
原價 NT$1,288
NT$600
前 100 名限定優惠價格
每組序號第一裝置限一用・不可轉讓或分享

.png)