AI Fluency 評分卡

← 首頁
AI Fluency Score
8.5 / 11
Power User — 工具思維成熟的重度使用者
評估日期:2026-05-27 | 資料來源:遠端主機 + Discord 對話紀錄

交代清楚 Task Clarity

1.5 / 3

描述清楚 Description Quality

2.5 / 3

檢查清楚 Quality Control

4.5 / 5

評估方法

仿照 Anthropic 正在測試的 AI Fluency Scorecard 框架,基於 11 項行為指標評估使用者的 AI 運用能力。資料來源:

11 項指標詳細評分

Category 1:交代清楚 Task Clarity

指標評分分析
1. 目標明確
一開始就說清楚要做什麼
⚠️ 部分 多數請求直接講目的,但有時靠對話補足細節
2. 指定受眾與格式
說明給誰看、用什麼形式
❌ 沒做到 幾乎不主動說「給我表格」「200 字以內」等格式要求
3. 提供範例
用例子說明期望的結果
❌ 沒做到 100 則訊息中沒有「像這樣的格式」或「參考這個例子」
⚠️ 重要補充:指標 2、3 在原始框架中屬於「沒做到」,但這對 WT 不完全公平。WT 的 CLAUDE.md 有 213 行系統指令,已把格式偏好、回覆風格、報告規範全部寫在系統層 — 這是比「每次口頭說格式」更高階的做法。Anthropic 的指標是針對一般聊天用戶設計的,沒有考慮到「把偏好寫成持久化系統設定」這種 power user 行為。
佐證 — 目標明確的好例子:
「我記得大仁之前有發文章說明過,為什麼台灣的經濟環境會比國外更適合正二這類型的槓桿 ETF 存在,可以幫我確實查找並整理嗎?」— 目標、對象、行動一句講完

Category 2:描述清楚 Description Quality

指標評分分析
4. 背景脈絡
提供足夠的前因後果
✅ 做到 提問前會鋪陳完整脈絡,主動修正 Claude 的假設
5. 拆解步驟
把複雜任務分層處理
⚠️ 部分 有時能分層思考,但偶爾把多個問題混在一則訊息
6. 參照資料
附上相關連結或檔案
✅ 做到 頻繁主動貼 URL、PDF、截圖,讓 AI 有第一手資料
佐證 — 脈絡提供:
「不過不對,我信貸出來的會放在投資型裡面,預計標的為安達台灣科技,再結合保單借貸出來可能投資去美股的 SOXL」— 主動修正 Claude 的假設,並補充完整操作鏈
佐證 — 主動附資料:
主動貼出 MoneyDJ 基金頁連結讓 Claude 查實際績效、貼凱基保單條款 PDF 要求結合計算,而不是讓 AI 靠記憶猜

Category 3:檢查清楚 Quality Control

指標評分分析
7. 反覆迭代
不接受第一版就結案
✅ 做到 連續四輪修正保單計算,從金額→費用→本金定義→利率逐步收斂
8. 質疑 AI
挑戰 AI 的回答和假設
✅ 做到 能識別計算邏輯錯誤、假設錯誤,直接糾正
9. 提供回饋
告訴 AI 哪裡好、哪裡不好
⚠️ 部分 會給方向性回饋,但較少具體說「這段好/這段不行」
10. 驗證結果
確認後才接受
⚠️ 部分 數字計算面很嚴謹,但資訊查詢面較少追問來源
11. 追問邊界
把結論推到極端情境
✅ 做到 習慣性追問 edge case,一步步把所有環節的邊界問完
佐證 — 質疑 AI(最強項):
「但正二是追蹤單日兩倍,所以會有複利偏移,導致就算下跌,整體來講也不會下跌到真的兩倍,不是嗎」— 直接糾正 Claude 對正二下跌風險的高估

「不對,60 萬投入的話,前幾年不是會扣比較多錢,等於一開始去投資的錢不會是 60 萬」— 識別計算邏輯錯誤

「這時候的本金怎麼會永久 20 萬?應該適用信貸金額比」— 強迫 Claude 修正框架
佐證 — 追問邊界:
正二討論完 → 追問「加上信貸呢?」→ 被點出加了保單 → 追問「保單借款只需要還利息,不是全部還」→ 再追問「帳戶現金價值下跌時,保單借款額度也會縮水對吧?」— 一步步走完所有 edge case
Anthropic 的研究發現:「願意來回修改」是判斷一個人會不會用 AI 最關鍵的指標。WT 在這項表現突出 — 不是被動接受 AI 輸出,而是把 AI 當成可以被質疑的分析工具反覆校準。

超出框架:系統層級的 AI 運用能力

Anthropic 的 11 項指標是針對「對話中的行為」設計的,無法衡量 WT 最強的面向 — 把 AI 變成 24/7 自動化基礎建設。以下是原始框架沒有涵蓋的能力維度:

🏗️ 基礎建設複雜度

CLAUDE.md 設定
213 行
記憶檔案數
79 個
自訂 Hook
30 支
自訂 Skill
21 個
MCP 整合
6+

紅線 = 一般 Claude Code power user 的水平

🔧 使用中的進階功能

🧠記憶系統
79 檔 + Git 同步
🪝Hooks
30 支自動化
🤖多代理路由
Haiku/Sonnet/Opus
💬Discord 雙向
即時收發訊息
📅Google Calendar
行程管理
🎙️語音轉譯
Whisper 自動化
🌐Cloudflare Pages
公開站+私人站
🔄背景任務
不卡主 session
🛡️安全防護
注入偵測 + 站點守衛
📋任務佇列
Ralph Loop
💾斷點恢復
跨 session 接續
🔍巡檢機制
每 30 分鐘自動

📊 使用強度指標

指標數據
連續使用天數58 天無中斷(2026-03-31 ~ 05-27)
每日互動量70-100+ 則訊息
記憶 Git commits(5 月)273 次(≈ 10+ 次/天)
運行模式systemd 服務,24/7 常駐 + 自動重啟
同時進行專案13+ 個跨領域專案

優勢與成長空間

🏆 最強面向

1. 質疑與迭代能力(指標 7, 8, 11)
不盲目接受 AI 輸出,會用自身專業知識(保險、投資、複利)挑戰 AI 的假設和計算邏輯。這正是 Anthropic 研究認為最關鍵的能力。
2. 系統化設定(超出框架)
把偏好、工作流程、安全規則寫成持久化系統設定,而不是每次對話重複說明。這是「教 AI 怎麼跟你工作」的最高形式。
3. 主動提供第一手資料(指標 6)
不讓 AI 猜,直接貼 URL、PDF、截圖。減少幻覺的最有效方式。

📈 可以更強的地方

1. 任務初始規格(指標 1, 2, 3)
有時一開始只丟一句話(「重新整理一次給我」),需要靠對話補完。如果能在第一則訊息就包含「目標 + 格式 + 邊界」,可以減少 1-2 輪來回。
實用建議:不需要每次都寫長 prompt,但對於複雜任務,開頭多一句「用表格整理」「重點不超過 5 項」就能大幅提升第一版品質。
2. 多問題分離(指標 5)
偶爾把兩三個不同問題混在一則訊息,Claude 可能漏掉其中一個。拆成獨立訊息或明確標號(Q1/Q2)會更精準。
3. 資訊查詢的驗證(指標 10)
數字計算面驗證很嚴謹,但資訊查詢面(Claude 說「我查到了 XXX」)比較少追問來源或要求截圖交叉驗證。

與 Anthropic 框架的落差

Anthropic 的 AI Fluency 評分卡是為一般聊天用戶設計的 — 它衡量的是「在單次對話中,你的 prompt 品質如何」。但 WT 的 AI 運用方式已經超越了「寫好 prompt」這個層級:

Anthropic 框架衡量的WT 實際在做的
每次對話指定格式在 CLAUDE.md 寫死格式偏好,一勞永逸
提供背景脈絡79 個記憶檔案 + 跨 session 脈絡保持
使用 AI 的多種功能自建 30 個 Hook + 21 個 Skill + 6 個 MCP 整合
願意來回修改把 AI 當 24/7 常駐工程師,即時迭代產品
質疑 AI 的回答建立提示注入偵測、公開站守衛等安全層
結論:如果 Anthropic 的框架是衡量「你會不會開車」,WT 做的事情比較接近「自己組裝了一台車,還加了自動駕駛」。11 分制打 8.5 是因為框架本身有天花板 — 它沒有「把 AI 變成基礎建設」這個評分維度。
評估時間:2026-05-27 16:30 UTC+8
分析模型:Claude Opus 4.6 | 資料範圍:DC 近 100 則 + 伺服器設定全量掃描
靈感來源:@moth.ai — Anthropic AI Fluency Scorecard