claude token save cover

Claude Code 如何省 Token?整理給你看,這三個做法最有效

在使用 Claude Code 的過程中,整理出這些 claude code 省 token 技巧 後,實際消耗量降低約 60~80%。這些做法不是什麼高深理論,而是根據 Anthropic 官方說明和實際跑過的流程,整理出三個核心原則:減少重複推理、分離對話與執行、善用 Prompt Cache。如果你也想讓 AI 工作更有效率,這篇整理會對你有幫助。

為什麼 Token 會用這麼快?三個真正的浪費來源

大部分人以為 Token 消耗是因為「問太多問題」,但實際跑過流程後發現,真正的浪費來自這三個地方:

1. 重複推理(Repeated Reasoning)

每次開新對話,AI 都要重新理解你的任務、重新推理流程邏輯。即使是相同的任務,AI 也無法「記住」上次怎麼做,必須從頭開始分析。這個過程消耗的 Token,往往比實際執行還多。

💡 範例:讓 AI 寫一篇文章,第一次要花 3 分鐘理解需求,第二次還是要花 3 分鐘,因為 AI 不會「記得」第一次怎麼做。

2. 重複上下文(Repeated Context)

每次對話,Claude Code 都會載入:

  • System Prompt(系統提示):告訴 AI 你是誰、你的角色
  • 歷史對話:之前的所有問答記錄
  • 規則文件:CLAUDE.md、MEMORY.md 等設定檔

這些內容通常佔據整個輸入的 60~80%,但每次都要重新讀取、重新計算 Token。

3. 重試成本(Retry Cost)

當 AI 做錯時,你必須:

  1. 重新說明問題
  2. AI 重新推理
  3. 重新執行任務

這個「重試循環」消耗的 Token,往往比一次正確推理還要貴 2~3 倍。

浪費來源說明佔比
重複推理每次對話都要重新理解任務約 20~30%
重複上下文System Prompt、歷史、規則每次重讀約 60~80%
重試成本做錯後重新執行的額外消耗錯誤次數 × 2~3 倍

Prompt Cache:為什麼可以省 60~80% 的 Token?

Prompt Cache(提示詞快取)是 Anthropic 提供的功能,用來暫時儲存重複使用的固定內容,避免每次都重新計算 Token。

什麼是 Prompt Cache?

當你送出一段提示詞給 Claude 時,系統會:

  1. 檢查這段內容是否與上次「完全一致」
  2. 如果一致,直接從快取讀取(Cache Hit,命中快取)
  3. 如果不一致,重新計算 Token(Cache Miss,未命中快取)

💡 關鍵限制:改一個字就失效。Prompt Cache 是「完全比對」,只要內容有任何差異,快取就會失效,必須重新計算。

TTL(Time To Live):快取存活時間

根據 Anthropic 官方說明,Prompt Cache 的 TTL 約為 5 分鐘。如果超過 5 分鐘沒有使用,快取會失效,下次必須重新計算。

為什麼可以省 60~80%?

分析實際使用情況發現,AI 輸入的內容通常是:

  • 60~80% 是固定上下文(System Prompt、CLAUDE.md、MEMORY.md、規則文件)
  • 20~40% 是變動內容(你的問題、任務描述)

當固定上下文被快取後,這 60~80% 的部分幾乎免費,只需計算變動的 20~40%。這就是為什麼開啟 Prompt Cache 後,Token 消耗可以大幅降低。

術語英文說明
提示詞快取Prompt Cache暫時儲存重複使用的固定內容
命中快取Cache Hit內容與上次一致,直接讀取快取
未命中快取Cache Miss內容有變動,必須重新計算
存活時間TTL (Time To Live)快取有效期限,約 5 分鐘

Prompt Cache 的限制

  1. 完全比對:改一個字就失效,無法「部分快取」
  2. TTL 限制:超過 5 分鐘沒用就要重算
  3. 只解決上下文成本:無法減少推理成本和重試成本

三層 AI 系統架構:對話、腳本、背景執行

根據實際跑過的流程整理出這個三層架構,每層負責不同的任務,避免所有事情都擠在對話層消耗 Token。

第一層:對話層(Decision Layer)

這一層只做兩件事:①決策:選擇要做什麼、選哪個方向 ②指令:下達明確的執行指令。不負責實際執行、不輸出完整推理過程、不做重複的資料處理。

第二層:腳本層(Automation Layer)

把所有可重複的固定流程寫成 Python 腳本,例如:爬蟲資料抓取、API 呼叫與資料處理、批次任務執行、WordPress 文章發布、Search Console 索引提交。這些任務不需要 AI 重新推理,直接執行腳本即可。

第三層:背景執行層(Background Execution)

把耗時任務放到背景執行,不佔用對話資源。執行完成後,只回傳一個簡短摘要(Summary),不輸出完整過程。

💡 範例:NotebookLM 生成影片需要 3~5 分鐘,如果在對話中等待,會佔用大量 Token。改成背景執行後,對話立刻結束,AI 只回報「已觸發影片生成,預計 5 分鐘完成」。

層級功能範例
對話層決策、選方向「要發布文章還是先做 SEO 研究?」
腳本層固定流程自動化python3 wp_api.py publish
背景執行層耗時任務背景跑NotebookLM 影片生成、大量資料爬蟲

Log vs Summary:人只看摘要,系統才看紀錄

在實際執行任務時,發現一個關鍵原則:大部分時候,人類不需要看完整的執行過程,只需要看結果摘要。

Log(紀錄)vs Summary(摘要)

類型內容給誰看
Log完整執行過程、中間狀態、錯誤訊息系統(除錯用)
Summary成功與否、關鍵數據、下一步建議人類(快速了解)

💡 原則:人只看 summary,不看 log。AI 在對話中只輸出 summary,完整 log 寫入檔案供系統後續查詢。這樣對話保持簡潔,每次推理更快、更省 Token。

哪些任務適合背景執行?判斷標準很簡單

✅ 適合背景執行

  • 爬蟲:抓取大量資料,不需要即時互動
  • API 呼叫:呼叫外部服務,等待回應時間較長
  • 資料處理:清洗、轉換、分析大量資料
  • AI 內容生成:NotebookLM 影片、FLUX 圖片生成
  • 批次任務:批次發布文章、批次提交索引
  • 自動發布:WordPress、Facebook、YouTube 上傳

❌ 不適合背景執行

  • 需要人決策:選題、選關鍵字、確認方向
  • 需要反覆修改:文章撰寫、程式碼開發
  • 需要即時對話:問答、討論、腦力激盪

💡 判斷標準:「看完結果還會想再回一句話」→ 不要背景化。如果看完結果就結束,沒有後續討論,就適合背景執行。

Validation Loop:用推理成本換重試成本

Validation Loop(驗證迴圈)是一個簡單但有效的機制,用來減少錯誤重試的成本。

兩種流程對比

流程步驟Token 消耗
❌ 無驗證生成→執行→錯誤→重新生成→執行約 6000 Token
✅ 有驗證生成→驗證→修正→驗證→執行約 3900 Token

💡 核心邏輯:用「前期推理成本」換「後期重試成本」。在執行前多花一點 Token 驗證,可以避免執行後發現錯誤、重新推理、重新執行的高成本循環。

推理成本 vs 錯誤成本:找到最佳平衡點

很多人以為「減少推理」就能省 Token,但實際情況是:推理太少會導致錯誤增加,錯誤重試的成本往往更高

AI 系統最佳狀態

根據整理的經驗,AI 系統的最佳狀態是:

  1. 適量推理:不要過度推理,但也不能太少
  2. Validation Loop:用驗證機制降低錯誤率
  3. Prompt Cache:快取固定上下文,減少重複計算
策略推理成本錯誤率總成本
推理太少3000 Token約 9000 Token
適量推理+驗證4000 Token約 5000 Token ✅
過度推理6000 Token極低約 6500 Token

實際可用的 Prompt 模板(可複製)

根據前面整理的原則,這裡提供一個實際可用的 Prompt 模板,可以直接套用到 Claude Code 的 System Prompt 或任務指令中。

你是一個自動化任務執行系統。核心規則: 1. 所有可重複任務必須視為腳本執行,不重新推理 2. 不要輸出完整推理過程,只輸出 Summary(3~5 行) 3. 所有輸出必須為結果摘要,不輸出 Log 4. 避免重複生成內容,已存在的資訊不得重新計算 5. 長任務(>2 分鐘)視為 Background Execution 6. 執行前必須先進行 Validation(驗證結果合理性) 7. 固定上下文(System Prompt、規則文件)必須啟用 Prompt Cache執行流程: Step 1: 判斷任務類型(決策 / 腳本 / 背景) Step 2: 腳本任務 → 直接執行,不推理 Step 3: 背景任務 → 觸發後立刻回報 Summary Step 4: 執行前進行 Validation,確認結果合理才執行 Step 5: 只輸出 Summary,Log 寫入檔案輸出格式: ✅ 任務:[任務名稱] ✅ 結果:[成功/失敗] ✅ 關鍵數據:[重要數字、ID、URL] ✅ 下一步:[建議的後續行動]

常見問題 FAQ

Q1: claude code 省 token 技巧中,Prompt Cache 為什麼有時候不起作用?

Prompt Cache 有三個主要限制:①內容必須「完全一致」,改一個字就失效 ②TTL 約 5 分鐘,超過時間就要重算 ③只快取固定上下文,無法快取變動內容。如果你發現 Cache 沒作用,檢查是不是因為 System Prompt 或規則文件被修改了,或是間隔時間超過 5 分鐘。

Q2: 背景執行適合哪些 claude code 省 token 的場景?

適合的場景包括:爬蟲、API 呼叫、資料處理、AI 內容生成(NotebookLM、FLUX)、批次任務、自動發布。判斷標準是「看完結果就結束,不需要後續對話」。如果看完結果還想討論或修改,就不適合背景執行。

Q3: Validation Loop 會不會反而增加 token 消耗?

Validation 確實會增加前期推理成本,但可以大幅降低錯誤重試成本。用 200~500 Token 做驗證,可以避免 3000~6000 Token 的重試成本,整體是划算的。

Q4: Log 和 Summary 分離後,如何查詢完整執行記錄?

Log 應該寫入檔案(例如 執行報告.mdtask_log.json),需要查詢時直接讀檔案即可。對話中只顯示 Summary,保持簡潔。

Q5: 三層架構中,對話層應該負責什麼?

對話層只負責兩件事:①決策(選擇要做什麼、選方向)②下達指令。不負責實際執行、不輸出完整推理過程、不做重複的資料處理。把執行層的工作交給腳本層和背景執行層,可以大幅降低對話中的 Token 消耗。

古焌宥|雲林 AI 老師,專注於 Claude Code 應用整理與 AI 自動化流程設計。擅長將複雜的 AI 技術轉化為實用的工作流程,幫助更多人善用 AI 工具提升效率。

資料來源:Anthropic 官方說明・Claude Code 實際使用回饋・AI 自動化系統設計經驗整理

🚀 EvoForge 進化工坊|讓 Claude Code 會記憶、會學習、會進化 →

解壓縮 → 拖入 Claude Code → 輸入任意一句話,5 分鐘完成安裝

✅ EvoForge 核心功能:

🧠 三層記憶系統,50 Token 完成查詢(關掉不再忘記)

🔗 85-Token 跨對話橋接,任務中斷秒速恢復不重頭來

⚡ DCI 動態 Context 注入,省 70%+ Token

📈 Stop Hook 自動進化,同類任務 3 次自動腳本化

🛠️ 12 個核心技能,/斜線指令開箱即用

🤖 3 個子代理協作,不消耗主對話 Token

原價 NT$1,288

NT$600

前 100 名優惠 · 買斷不收月費 · MIT 授權可自由修改

Mac & Windows 適用 · 確認匯款後立即出貨 · LINE:kenemail2

Compare Listings

TitlePriceStatusTypeAreaPurposeBedroomsBathrooms

Compare