Claude Code 如何省 Token？整理給你看，這三個做法最有效

在使用 Claude Code 的過程中，整理出這些 claude code 省 token 技巧後，實際消耗量降低約 60～80%。這些做法不是什麼高深理論，而是根據 Anthropic 官方說明和實際跑過的流程，整理出三個核心原則：減少重複推理、分離對話與執行、善用 Prompt Cache。如果你也想讓 AI 工作更有效率，這篇整理會對你有幫助。

為什麼 Token 會用這麼快？三個真正的浪費來源

大部分人以為 Token 消耗是因為「問太多問題」，但實際跑過流程後發現，真正的浪費來自這三個地方：

1. 重複推理（Repeated Reasoning）

每次開新對話，AI 都要重新理解你的任務、重新推理流程邏輯。即使是相同的任務，AI 也無法「記住」上次怎麼做，必須從頭開始分析。這個過程消耗的 Token，往往比實際執行還多。

💡 範例：讓 AI 寫一篇文章，第一次要花 3 分鐘理解需求，第二次還是要花 3 分鐘，因為 AI 不會「記得」第一次怎麼做。

2. 重複上下文（Repeated Context）

每次對話，Claude Code 都會載入：

System Prompt（系統提示）：告訴 AI 你是誰、你的角色
歷史對話：之前的所有問答記錄
規則文件：CLAUDE.md、MEMORY.md 等設定檔

這些內容通常佔據整個輸入的 60～80%，但每次都要重新讀取、重新計算 Token。

3. 重試成本（Retry Cost）

當 AI 做錯時，你必須：

重新說明問題
AI 重新推理
重新執行任務

這個「重試循環」消耗的 Token，往往比一次正確推理還要貴 2～3 倍。

浪費來源	說明	佔比
重複推理	每次對話都要重新理解任務	約 20～30%
重複上下文	System Prompt、歷史、規則每次重讀	約 60～80%
重試成本	做錯後重新執行的額外消耗	錯誤次數 × 2～3 倍

Prompt Cache：為什麼可以省 60～80% 的 Token？

Prompt Cache（提示詞快取）是 Anthropic 提供的功能，用來暫時儲存重複使用的固定內容，避免每次都重新計算 Token。

什麼是 Prompt Cache？

當你送出一段提示詞給 Claude 時，系統會：

檢查這段內容是否與上次「完全一致」
如果一致，直接從快取讀取（Cache Hit，命中快取）
如果不一致，重新計算 Token（Cache Miss，未命中快取）

💡 關鍵限制：改一個字就失效。Prompt Cache 是「完全比對」，只要內容有任何差異，快取就會失效，必須重新計算。

TTL（Time To Live）：快取存活時間

根據 Anthropic 官方說明，Prompt Cache 的 TTL 約為 5 分鐘。如果超過 5 分鐘沒有使用，快取會失效，下次必須重新計算。

為什麼可以省 60～80%？

分析實際使用情況發現，AI 輸入的內容通常是：

60～80% 是固定上下文（System Prompt、CLAUDE.md、MEMORY.md、規則文件）
20～40% 是變動內容（你的問題、任務描述）

當固定上下文被快取後，這 60～80% 的部分幾乎免費，只需計算變動的 20～40%。這就是為什麼開啟 Prompt Cache 後，Token 消耗可以大幅降低。

術語	英文	說明
提示詞快取	Prompt Cache	暫時儲存重複使用的固定內容
命中快取	Cache Hit	內容與上次一致，直接讀取快取
未命中快取	Cache Miss	內容有變動，必須重新計算
存活時間	TTL (Time To Live)	快取有效期限，約 5 分鐘

Prompt Cache 的限制

完全比對：改一個字就失效，無法「部分快取」
TTL 限制：超過 5 分鐘沒用就要重算
只解決上下文成本：無法減少推理成本和重試成本

三層 AI 系統架構：對話、腳本、背景執行

根據實際跑過的流程整理出這個三層架構，每層負責不同的任務，避免所有事情都擠在對話層消耗 Token。

第一層：對話層（Decision Layer）

這一層只做兩件事：①決策：選擇要做什麼、選哪個方向 ②指令：下達明確的執行指令。不負責實際執行、不輸出完整推理過程、不做重複的資料處理。

第二層：腳本層（Automation Layer）

把所有可重複的固定流程寫成 Python 腳本，例如：爬蟲資料抓取、API 呼叫與資料處理、批次任務執行、WordPress 文章發布、Search Console 索引提交。這些任務不需要 AI 重新推理，直接執行腳本即可。

第三層：背景執行層（Background Execution）

把耗時任務放到背景執行，不佔用對話資源。執行完成後，只回傳一個簡短摘要（Summary），不輸出完整過程。

💡 範例：NotebookLM 生成影片需要 3～5 分鐘，如果在對話中等待，會佔用大量 Token。改成背景執行後，對話立刻結束，AI 只回報「已觸發影片生成，預計 5 分鐘完成」。

層級	功能	範例
對話層	決策、選方向	「要發布文章還是先做 SEO 研究？」
腳本層	固定流程自動化	python3 wp_api.py publish
背景執行層	耗時任務背景跑	NotebookLM 影片生成、大量資料爬蟲

Log vs Summary：人只看摘要，系統才看紀錄

在實際執行任務時，發現一個關鍵原則：大部分時候，人類不需要看完整的執行過程，只需要看結果摘要。

Log（紀錄）vs Summary（摘要）

類型	內容	給誰看
Log	完整執行過程、中間狀態、錯誤訊息	系統（除錯用）
Summary	成功與否、關鍵數據、下一步建議	人類（快速了解）

💡 原則：人只看 summary，不看 log。AI 在對話中只輸出 summary，完整 log 寫入檔案供系統後續查詢。這樣對話保持簡潔，每次推理更快、更省 Token。

哪些任務適合背景執行？判斷標準很簡單

✅ 適合背景執行

爬蟲：抓取大量資料，不需要即時互動
API 呼叫：呼叫外部服務，等待回應時間較長
資料處理：清洗、轉換、分析大量資料
AI 內容生成：NotebookLM 影片、FLUX 圖片生成
批次任務：批次發布文章、批次提交索引
自動發布：WordPress、Facebook、YouTube 上傳

❌ 不適合背景執行

需要人決策：選題、選關鍵字、確認方向
需要反覆修改：文章撰寫、程式碼開發
需要即時對話：問答、討論、腦力激盪

💡 判斷標準：「看完結果還會想再回一句話」→ 不要背景化。如果看完結果就結束，沒有後續討論，就適合背景執行。

Validation Loop：用推理成本換重試成本

Validation Loop（驗證迴圈）是一個簡單但有效的機制，用來減少錯誤重試的成本。

兩種流程對比

流程	步驟	Token 消耗
❌ 無驗證	生成→執行→錯誤→重新生成→執行	約 6000 Token
✅ 有驗證	生成→驗證→修正→驗證→執行	約 3900 Token

💡 核心邏輯：用「前期推理成本」換「後期重試成本」。在執行前多花一點 Token 驗證，可以避免執行後發現錯誤、重新推理、重新執行的高成本循環。

推理成本 vs 錯誤成本：找到最佳平衡點

很多人以為「減少推理」就能省 Token，但實際情況是：推理太少會導致錯誤增加，錯誤重試的成本往往更高。

AI 系統最佳狀態

根據整理的經驗，AI 系統的最佳狀態是：

適量推理：不要過度推理，但也不能太少
Validation Loop：用驗證機制降低錯誤率
Prompt Cache：快取固定上下文，減少重複計算

策略	推理成本	錯誤率	總成本
推理太少	3000 Token	高	約 9000 Token
適量推理＋驗證	4000 Token	低	約 5000 Token ✅
過度推理	6000 Token	極低	約 6500 Token

實際可用的 Prompt 模板（可複製）

根據前面整理的原則，這裡提供一個實際可用的 Prompt 模板，可以直接套用到 Claude Code 的 System Prompt 或任務指令中。

你是一個自動化任務執行系統。核心規則：
1. 所有可重複任務必須視為腳本執行，不重新推理
2. 不要輸出完整推理過程，只輸出 Summary（3～5 行）
3. 所有輸出必須為結果摘要，不輸出 Log
4. 避免重複生成內容，已存在的資訊不得重新計算
5. 長任務（>2 分鐘）視為 Background Execution
6. 執行前必須先進行 Validation（驗證結果合理性）
7. 固定上下文（System Prompt、規則文件）必須啟用 Prompt Cache執行流程：
Step 1: 判斷任務類型（決策 / 腳本 / 背景）
Step 2: 腳本任務 → 直接執行，不推理
Step 3: 背景任務 → 觸發後立刻回報 Summary
Step 4: 執行前進行 Validation，確認結果合理才執行
Step 5: 只輸出 Summary，Log 寫入檔案輸出格式：
✅ 任務：[任務名稱]
✅ 結果：[成功/失敗]
✅ 關鍵數據：[重要數字、ID、URL]
✅ 下一步：[建議的後續行動]

常見問題 FAQ

Q1: claude code 省 token 技巧中，Prompt Cache 為什麼有時候不起作用？

Prompt Cache 有三個主要限制：①內容必須「完全一致」，改一個字就失效 ②TTL 約 5 分鐘，超過時間就要重算 ③只快取固定上下文，無法快取變動內容。如果你發現 Cache 沒作用，檢查是不是因為 System Prompt 或規則文件被修改了，或是間隔時間超過 5 分鐘。

Q2: 背景執行適合哪些 claude code 省 token 的場景？

適合的場景包括：爬蟲、API 呼叫、資料處理、AI 內容生成（NotebookLM、FLUX）、批次任務、自動發布。判斷標準是「看完結果就結束，不需要後續對話」。如果看完結果還想討論或修改，就不適合背景執行。

Q3: Validation Loop 會不會反而增加 token 消耗？

Validation 確實會增加前期推理成本，但可以大幅降低錯誤重試成本。用 200～500 Token 做驗證，可以避免 3000～6000 Token 的重試成本，整體是划算的。

Q4: Log 和 Summary 分離後，如何查詢完整執行記錄？

Log 應該寫入檔案（例如 執行報告.md 或 task_log.json），需要查詢時直接讀檔案即可。對話中只顯示 Summary，保持簡潔。

Q5: 三層架構中，對話層應該負責什麼？

對話層只負責兩件事：①決策（選擇要做什麼、選方向）②下達指令。不負責實際執行、不輸出完整推理過程、不做重複的資料處理。把執行層的工作交給腳本層和背景執行層，可以大幅降低對話中的 Token 消耗。

延伸閱讀

古焌宥｜雲林 AI 老師，專注於 Claude Code 應用整理與 AI 自動化流程設計。擅長將複雜的 AI 技術轉化為實用的工作流程，幫助更多人善用 AI 工具提升效率。

資料來源：Anthropic 官方說明・Claude Code 實際使用回饋・AI 自動化系統設計經驗整理

🚀 EvoForge 進化工坊｜讓 Claude Code 會記憶、會學習、會進化 →

解壓縮 → 拖入 Claude Code → 輸入任意一句話，5 分鐘完成安裝

✅ EvoForge 核心功能：

🧠 三層記憶系統，50 Token 完成查詢（關掉不再忘記）

🔗 85-Token 跨對話橋接，任務中斷秒速恢復不重頭來

⚡ DCI 動態 Context 注入，省 70%+ Token

📈 Stop Hook 自動進化，同類任務 3 次自動腳本化

🛠️ 12 個核心技能，/斜線指令開箱即用

🤖 3 個子代理協作，不消耗主對話 Token

原價 NT$1,288

NT$600

前 100 名優惠 · 買斷不收月費 · MIT 授權可自由修改

加 LINE 立即購買 → 0906707964
📖 了解更多完整介紹 →

Mac & Windows 適用 · 確認匯款後立即出貨 · LINE：kenemail2