Pretotyping × AI Coding：機械土耳其人的現代復活

2026 年，你的團隊準備好要建一個「AI 功能」了。估算六個月，三位工程師。投資人說好，老闆說衝。

但在你打開 IDE 之前，有一個問題你沒有答案：

「如果我們真的做出來了，會有人用嗎？」

這篇文章要告訴你一個 250 年前就被發明、卻在 AI Coding 時代才真正成熟的答案。

第一幕：1770 年的維也納騙局

1770 年，奧地利發明家沃爾夫岡·馮·肯佩倫在維也納宮廷展示了一台機器。

一個身穿土耳其服飾的木偶，坐在滿是齒輪的棋盤桌前。它打敗了所有挑戰者——包括拿破崙。

秘密？桌子裡藏著一位真正的西洋棋大師。 所謂的「機器智慧」，是人類智慧假扮的。

250 年後，Google 前研究員 Alberto Savoia 在《The Right It》中把這個邏輯命名為 Pretotyping（注意：不是 Prototype）：

「在問「我們能不能做到」之前，先問「如果做出來了，有人要嗎？」」 — Alberto Savoia，《The Right It》

Mechanical Turk（機械土耳其人）成為 Pretotyping 最經典的手法之一：用人力模擬還不存在的複雜系統，以最低成本驗證最核心的假設。 Amazon 的眾包平台也以此命名，致敬的正是這個概念。

第二幕：你要驗證的，是什麼假設？

Mechanical Turk 不是一個通用的「建假東西」手法，它針對的是一種特定類型的高風險假設。

三種假設，只有一種值得用 Turk 法

假設類型 技術假設
「我們的 AI 模型能達到 95% 精準度」
市場假設
「目標市場有一百萬潛在用戶」
行為假設 ← 這個！
「用戶會真的使用這個功能，而不是舊方法」

行為假設是最難用「問卷」或「訪談」驗證的。人們說的和做的從來不一樣。

Mechanical Turk 的強大，在於它讓你直接觀察真實行為，而不是問用戶他們「會不會」使用。

如何寫出一個可驗證的行為假設？XYZ 公式

Alberto Savoia 在《The Right It》中提出了 XYZ 公式，讓「我覺得用戶會喜歡」變成一個可以被驗證、被推翻的科學陳述：

XYZ 公式 至少 X% 的 Y，會做 Z
X = 量化門檻。你預期的最低成功比例是多少？要在實驗前就定好，不能事後回推。
Y = 目標族群。要具體到可以找到這些人，不能只說「用戶」。
Z = 可觀察的具體行動。「喜歡」不算，「點擊按鈕」算。

XYZ 的厲害之處，是它強迫你面對三個你可能不想回答的問題：

• X 問你：多少才算成功？60% 採用率和 20% 採用率，對商業模式的意義天差地遠。

• Y 問你：你真的知道你的用戶是誰嗎？不同族群的行為假設可能完全不同。

• Z 問你：你要觀察什麼行為？「用戶覺得有用」無法在 48 小時實驗中被觀察到。

用 XYZ 公式寫林薇的假設
至少 60% 的客服專員（Y），在收到 AI 建議後，會直接點擊「採用建議」或僅做小幅修改後送出（Z）
為什麼是 60%？
低於這個門檻，系統節省的人力成本不足以支撐開發投資。這個數字要在實驗前定義好，防止「結果出來再說」的自我欺騙。

「用戶喜歡 AI 功能」不是一個假設，因為它沒有 X（多少算喜歡？），Y 太模糊，Z 無法觀察。套用 XYZ 公式是寫假設的第一步，也是最難的一步。

第三幕：林薇的 48 小時實驗

讓我們用一個具體故事來示範整個流程。

情境： 林薇的團隊想開發 AI 自動回覆客服系統。工程估算六個月。

Step 1：用 XYZ 公式定義危險假設

林薇把「客服人員應該會喜歡 AI 建議」這個模糊念頭，套進 XYZ 公式，寫成一個可以被驗證的假設：

XYZ 假設
至少 60%（X）的客服專員（Y），在處理退款申請時，會直接採用或小幅修改 AI 建議後送出，而不是自己重新撰寫（Z）
X = 60% | Y = 客服專員（處理退款） | Z = 採用或小幅修改後送出

為什麼是「危險假設」？因為 X 設定了明確的失敗線：如果採用率低於 60%，ROI 就不成立，整個專案就不該做。這個數字要在實驗前定好，防止事後「調整標準」。

Step 2：用 AI Coding 建假裝介面

林薇用 Claude 寫了一個 prompt：

給 AI 的 Prompt
「幫我建一個客服回覆介面，顯示客戶訊息和一個『AI 建議回覆』的文字框。當客服人員點擊『採用 AI 建議』時，發一個通知到我的 Email，附上他們是否修改過內容。」

整個介面用 Cursor 在半天內完成。後端不是 AI，是林薇自己事先準備好的「罐頭回覆」，手動貼進系統。

Step 3：你就是那個「AI」

客服人員看到的是「AI 建議」，實際上是林薇根據情境手動選擇並輸入的標準回覆。這是 Mechanical Turk 的精髓：人在背後操作，觀察真實行為反應。

重點不是建立可擴展的系統，而是觀察，記錄，問問題：

• 他們在哪個步驟猶豫？

• 他們修改了 AI 建議的哪些部分？

• 他們在什麼情況下直接放棄 AI 建議、自己寫？

Step 4：找到你的「34%」

三天，47 筆客服互動後，林薇有了數據：

實驗結果
✓ 78% 的回覆被直接採用或小幅修改
✓ 34% 的案例需要查詢訂單資料庫才能給出建議
✗ 12% 的案例，客服人員完全放棄建議，原因是情緒處理需求

那 34% 就是「真實洞察」——純 AI 系統若沒有整合訂單資料庫，有三分之一的工作根本做不了。

這個發現，讓林薇在任何工程師動手之前，就重新定義了整個系統的架構優先序。

第四幕：AI Coding 為何讓 Mechanical Turk 進化？

過去，建一個「假裝介面」需要工程師花數週時間。這讓 Pretotyping 只存在於書本和演講裡。

現在，任何人可以在幾小時內用 Claude、Cursor 或 v0 建出外表逼真的產品外殼，成本趨近於零。

AI Coding 之前
建假裝介面需要 1-2 週工程時間高成本 → 少做驗證實驗 Pretotyping 停留在理論層面

AI Coding 時代
任何人用自然語言，數小時內建好外殼低成本 → 每週可跑多個驗證實驗 Pretotyping 成為每個 PM 的基本技能

但不變的核心是：你仍然需要一個清晰的行為假設，和誠實面對數據的勇氣。

AI Coding 只是讓「建外殼」的成本消失了，它不能替你定義值得驗證的假設，也不能替你解讀那些讓人不舒服的結果。

第五幕：現代 Mechanical Turk Playbook（五步驟）

1. 用 XYZ 公式寫下你的危險假設
套入公式：「至少 X% 的 Y，會做 Z」。先定義 X（多少才算成功），再定義 Y（誰是你的目標族群），最後定義 Z（什麼行為可以被觀察記錄）。這三個問題若答不出來，就還沒準備好開始實驗。

2. 識別你的 Turk 機制
誰在桌子裡？你需要哪些「人力後端」來模擬系統運作？可以是你自己、你的團隊成員、或是招募的工讀生。明確定義觀察什麼行為，記錄什麼數據。

3. 用 AI Coding 建外殼（給 Claude 的 Prompt 範本）

Prompt 範本
「幫我建一個 [功能名稱] 的介面，讓 [目標用戶] 可以 [核心行動]。當用戶 [關鍵互動行為] 時，發一個通知到 [聯絡方式]，記錄 [觀察數據]。視覺上要像一個真實產品，不需要後端邏輯。」

4. 執行：你是那個 AI
讓真實用戶與介面互動，你在後端手動操作。記錄每一次互動：卡在哪？問了什麼？放棄了嗎？設定明確的停止條件，例如「20 個用戶互動後停止」或「3 天後統計」。

5. 決策：建、轉、或放棄

以數據為基礎做三選一：

• 數據強力支持假設 → 全力建造，並帶著這些洞察重新設計架構

• 部分支持，發現新的關鍵變數 → 轉向，修正假設，再做一輪

• 數據否定假設 → 提早放棄，把六個月工期省下來

可以驗證哪些假設？三個真實場景範例

選擇 Mechanical Turk 場景有一個關鍵前提：用戶本來就不期待即時結果。 延遲是產品設計的一部分，不是缺陷。以下三個場景都符合這個條件。

場景一：AI 合約風險審查

法務人員或業務上傳合約後，隔天收到一份「AI 標示風險條款、建議修改方向」的報告。這是正常的專業服務節奏，沒有人期待合約審查是即時的。

XYZ 假設
至少 55% 的法務／業務人員（Y），在收到 AI 合約審查報告後，會以報告中標示的風險點為基礎進行談判或修改，而不是忽略報告自己重看（Z）

Turk 機制： 人工閱讀合約、標示條款、寫建議，透過介面呈現為「AI 報告」。用戶上傳後看到「分析中，預計 2-4 小時完成」，完全符合預期。X = 55%，低於此代表用戶不信任報告品質，產品沒有價值。

場景二：AI 競品分析報告

產品經理或行銷人員輸入競品名稱與自家產品定位，數小時後收到一份結構化的競品分析。這本來就是需要時間的任務，用戶預期的是「今天送出、明天看到」。

XYZ 假設
至少 50% 的產品經理（Y），在收到 AI 競品分析報告後，會將其中至少一個洞察直接納入下一次的產品規劃會議（Z）

Turk 機制： 人工搜集競品資料、整理成標準化報告格式，透過介面呈現為「AI 生成」。這裡的 Z 特別重要：不是「覺得有用」，而是「實際用進規劃會議」，這是可以追蹤的行為。

場景三：AI 個人化健身菜單

用戶填完健康狀況、目標、可用時間的問卷後，「AI 在 24 小時內生成你的專屬四週訓練計畫」。這個等待時間本身傳遞了「這是認真為你客製化的」的訊號。

XYZ 假設
至少 45% 的用戶（Y），在收到個人化菜單後，會在第一週內按照計畫完成至少三次訓練（Z）

Turk 機制： 人工根據用戶填寫的問卷，套用訓練原則組合出菜單，透過介面呈現為「AI 生成」。Z 不是「喜歡菜單」，而是「真的去做了」，這才是產品能否留存的關鍵指標。

什麼情境不適合 Turk 法？

Mechanical Turk 有一條明確的邊界：當用戶期待即時互動時，這個方法就失效了。

不適合的情境
✗ 對話式 AI 助理 — 用戶不斷修改提示、期待即時回覆，人工根本跟不上
✗ 即時推薦系統 — 用戶滑動頁面期待毫秒級個人化，人工無法模擬
✗ 高頻重複操作 — 每天使用多次的功能，人力成本會快速失控 這些情境需要其他 Pretotyping 手法，例如 Pinocchio（純前端假裝有功能）或 Fake Door（只做入口，點擊後顯示「即將推出」）。

尾聲：土耳其人的遺產

1770 年，von Kempelen 用一個藏在桌子裡的棋手，讓世人相信機器智慧已經到來。

這不是欺騙，這是對自己誠實的最快路徑——在你宣告「機器可以做到」之前，先確認「人用這個方式做到」是否真的有價值。

在 AI Coding 讓建立外殼的成本趨近於零的今天，每一個 Product Builder 都可以成為 von Kempelen。

在投資六個月之前，先坐進那個桌子裡。

本文核心三問，給每位 Product Builder
1. 你最危險的行為假設是什麼？（如果它是錯的，整個產品就垮了）
2. 你需要誰坐在桌子裡，才能在一週內模擬這個系統？
3. 你需要看到什麼數據，才能決定值得繼續投入？

轉念學 – 敏捷三叔公的學習之旅