AI Fluency Score
8.5 / 11
Power User — 工具思維成熟的重度使用者
評估日期:2026-05-27 | 資料來源:遠端主機 + Discord 對話紀錄
交代清楚 Task Clarity
1.5 / 3
描述清楚 Description Quality
2.5 / 3
檢查清楚 Quality Control
4.5 / 5
評估方法
仿照 Anthropic 正在測試的 AI Fluency Scorecard 框架,基於 11 項行為指標評估使用者的 AI 運用能力。資料來源:
- Discord 對話紀錄 — 最近 100 則訊息(2026-05-26 ~ 05-27),分析使用者如何下達指令、修正 AI 回答、追問邊界
- 遠端主機設定 — CLAUDE.md(213 行)、79 個記憶檔案、30 個自訂 Hook、21 個 Skills、6+ MCP 整合
- 每日日誌 — 連續 58 天無中斷(2026-03-31 ~ 05-27),每天 70-100+ 則互動
11 項指標詳細評分
Category 1:交代清楚 Task Clarity
| 指標 | 評分 | 分析 |
1. 目標明確 一開始就說清楚要做什麼 |
⚠️ 部分 |
多數請求直接講目的,但有時靠對話補足細節 |
2. 指定受眾與格式 說明給誰看、用什麼形式 |
❌ 沒做到 |
幾乎不主動說「給我表格」「200 字以內」等格式要求 |
3. 提供範例 用例子說明期望的結果 |
❌ 沒做到 |
100 則訊息中沒有「像這樣的格式」或「參考這個例子」 |
⚠️ 重要補充:指標 2、3 在原始框架中屬於「沒做到」,但這對 WT 不完全公平。WT 的 CLAUDE.md 有 213 行系統指令,已把格式偏好、回覆風格、報告規範全部寫在系統層 — 這是比「每次口頭說格式」更高階的做法。Anthropic 的指標是針對一般聊天用戶設計的,沒有考慮到「把偏好寫成持久化系統設定」這種 power user 行為。
佐證 — 目標明確的好例子:
「我記得大仁之前有發文章說明過,為什麼台灣的經濟環境會比國外更適合正二這類型的槓桿 ETF 存在,可以幫我確實查找並整理嗎?」— 目標、對象、行動一句講完
Category 2:描述清楚 Description Quality
| 指標 | 評分 | 分析 |
4. 背景脈絡 提供足夠的前因後果 |
✅ 做到 |
提問前會鋪陳完整脈絡,主動修正 Claude 的假設 |
5. 拆解步驟 把複雜任務分層處理 |
⚠️ 部分 |
有時能分層思考,但偶爾把多個問題混在一則訊息 |
6. 參照資料 附上相關連結或檔案 |
✅ 做到 |
頻繁主動貼 URL、PDF、截圖,讓 AI 有第一手資料 |
佐證 — 脈絡提供:
「不過不對,我信貸出來的會放在投資型裡面,預計標的為安達台灣科技,再結合保單借貸出來可能投資去美股的 SOXL」— 主動修正 Claude 的假設,並補充完整操作鏈
佐證 — 主動附資料:
主動貼出 MoneyDJ 基金頁連結讓 Claude 查實際績效、貼凱基保單條款 PDF 要求結合計算,而不是讓 AI 靠記憶猜
Category 3:檢查清楚 Quality Control
| 指標 | 評分 | 分析 |
7. 反覆迭代 不接受第一版就結案 |
✅ 做到 |
連續四輪修正保單計算,從金額→費用→本金定義→利率逐步收斂 |
8. 質疑 AI 挑戰 AI 的回答和假設 |
✅ 做到 |
能識別計算邏輯錯誤、假設錯誤,直接糾正 |
9. 提供回饋 告訴 AI 哪裡好、哪裡不好 |
⚠️ 部分 |
會給方向性回饋,但較少具體說「這段好/這段不行」 |
10. 驗證結果 確認後才接受 |
⚠️ 部分 |
數字計算面很嚴謹,但資訊查詢面較少追問來源 |
11. 追問邊界 把結論推到極端情境 |
✅ 做到 |
習慣性追問 edge case,一步步把所有環節的邊界問完 |
佐證 — 質疑 AI(最強項):
「但正二是追蹤單日兩倍,所以會有複利偏移,導致就算下跌,整體來講也不會下跌到真的兩倍,不是嗎」— 直接糾正 Claude 對正二下跌風險的高估
「不對,60 萬投入的話,前幾年不是會扣比較多錢,等於一開始去投資的錢不會是 60 萬」— 識別計算邏輯錯誤
「這時候的本金怎麼會永久 20 萬?應該適用信貸金額比」— 強迫 Claude 修正框架
佐證 — 追問邊界:
正二討論完 → 追問「加上信貸呢?」→ 被點出加了保單 → 追問「保單借款只需要還利息,不是全部還」→ 再追問「帳戶現金價值下跌時,保單借款額度也會縮水對吧?」— 一步步走完所有 edge case
Anthropic 的研究發現:「願意來回修改」是判斷一個人會不會用 AI 最關鍵的指標。WT 在這項表現突出 — 不是被動接受 AI 輸出,而是把 AI 當成可以被質疑的分析工具反覆校準。
超出框架:系統層級的 AI 運用能力
Anthropic 的 11 項指標是針對「對話中的行為」設計的,無法衡量 WT 最強的面向 — 把 AI 變成 24/7 自動化基礎建設。以下是原始框架沒有涵蓋的能力維度:
🏗️ 基礎建設複雜度
紅線 = 一般 Claude Code power user 的水平
🔧 使用中的進階功能
🧠記憶系統
79 檔 + Git 同步
🪝Hooks
30 支自動化
🤖多代理路由
Haiku/Sonnet/Opus
💬Discord 雙向
即時收發訊息
📅Google Calendar
行程管理
🎙️語音轉譯
Whisper 自動化
🌐Cloudflare Pages
公開站+私人站
🔄背景任務
不卡主 session
🛡️安全防護
注入偵測 + 站點守衛
📋任務佇列
Ralph Loop
💾斷點恢復
跨 session 接續
🔍巡檢機制
每 30 分鐘自動
📊 使用強度指標
| 指標 | 數據 |
| 連續使用天數 | 58 天無中斷(2026-03-31 ~ 05-27) |
| 每日互動量 | 70-100+ 則訊息 |
| 記憶 Git commits(5 月) | 273 次(≈ 10+ 次/天) |
| 運行模式 | systemd 服務,24/7 常駐 + 自動重啟 |
| 同時進行專案 | 13+ 個跨領域專案 |
優勢與成長空間
🏆 最強面向
1. 質疑與迭代能力(指標 7, 8, 11)
不盲目接受 AI 輸出,會用自身專業知識(保險、投資、複利)挑戰 AI 的假設和計算邏輯。這正是 Anthropic 研究認為最關鍵的能力。
2. 系統化設定(超出框架)
把偏好、工作流程、安全規則寫成持久化系統設定,而不是每次對話重複說明。這是「教 AI 怎麼跟你工作」的最高形式。
3. 主動提供第一手資料(指標 6)
不讓 AI 猜,直接貼 URL、PDF、截圖。減少幻覺的最有效方式。
📈 可以更強的地方
1. 任務初始規格(指標 1, 2, 3)
有時一開始只丟一句話(「重新整理一次給我」),需要靠對話補完。如果能在第一則訊息就包含「目標 + 格式 + 邊界」,可以減少 1-2 輪來回。
實用建議:不需要每次都寫長 prompt,但對於複雜任務,開頭多一句「用表格整理」「重點不超過 5 項」就能大幅提升第一版品質。
2. 多問題分離(指標 5)
偶爾把兩三個不同問題混在一則訊息,Claude 可能漏掉其中一個。拆成獨立訊息或明確標號(Q1/Q2)會更精準。
3. 資訊查詢的驗證(指標 10)
數字計算面驗證很嚴謹,但資訊查詢面(Claude 說「我查到了 XXX」)比較少追問來源或要求截圖交叉驗證。
與 Anthropic 框架的落差
Anthropic 的 AI Fluency 評分卡是為一般聊天用戶設計的 — 它衡量的是「在單次對話中,你的 prompt 品質如何」。但 WT 的 AI 運用方式已經超越了「寫好 prompt」這個層級:
| Anthropic 框架衡量的 | WT 實際在做的 |
| 每次對話指定格式 | 在 CLAUDE.md 寫死格式偏好,一勞永逸 |
| 提供背景脈絡 | 79 個記憶檔案 + 跨 session 脈絡保持 |
| 使用 AI 的多種功能 | 自建 30 個 Hook + 21 個 Skill + 6 個 MCP 整合 |
| 願意來回修改 | 把 AI 當 24/7 常駐工程師,即時迭代產品 |
| 質疑 AI 的回答 | 建立提示注入偵測、公開站守衛等安全層 |
結論:如果 Anthropic 的框架是衡量「你會不會開車」,WT 做的事情比較接近「自己組裝了一台車,還加了自動駕駛」。11 分制打 8.5 是因為框架本身有天花板 — 它沒有「把 AI 變成基礎建設」這個評分維度。