Pretotyping × AI Coding:機械土耳其人的現代復活

2026 年,你的團隊準備好要建一個「AI 功能」了。估算六個月,三位工程師。投資人說好,老闆說衝。

但在你打開 IDE 之前,有一個問題你沒有答案:

「如果我們真的做出來了,會有人用嗎?」

這篇文章要告訴你一個 250 年前就被發明、卻在 AI Coding 時代才真正成熟的答案。


第一幕:1770 年的維也納騙局

1770 年,奧地利發明家沃爾夫岡·馮·肯佩倫在維也納宮廷展示了一台機器。

一個身穿土耳其服飾的木偶,坐在滿是齒輪的棋盤桌前。它打敗了所有挑戰者——包括拿破崙。

秘密?桌子裡藏著一位真正的西洋棋大師。 所謂的「機器智慧」,是人類智慧假扮的。

250 年後,Google 前研究員 Alberto Savoia 在《The Right It》中把這個邏輯命名為 Pretotyping(注意:不是 Prototype):

「在問「我們能不能做到」之前,先問「如果做出來了,有人要嗎?」」 — Alberto Savoia,《The Right It》

Mechanical Turk(機械土耳其人)成為 Pretotyping 最經典的手法之一:用人力模擬還不存在的複雜系統,以最低成本驗證最核心的假設。 Amazon 的眾包平台也以此命名,致敬的正是這個概念。


第二幕:你要驗證的,是什麼假設?

Mechanical Turk 不是一個通用的「建假東西」手法,它針對的是一種特定類型的高風險假設。

三種假設,只有一種值得用 Turk 法

假設類型 技術假設
「我們的 AI 模型能達到 95% 精準度」
市場假設
「目標市場有一百萬潛在用戶」
行為假設 ← 這個!
「用戶會真的使用這個功能,而不是舊方法」
 

行為假設是最難用「問卷」或「訪談」驗證的。人們說的和做的從來不一樣。

Mechanical Turk 的強大,在於它讓你直接觀察真實行為,而不是問用戶他們「會不會」使用。

如何寫出一個可驗證的行為假設?XYZ 公式

Alberto Savoia 在《The Right It》中提出了 XYZ 公式,讓「我覺得用戶會喜歡」變成一個可以被驗證、被推翻的科學陳述:

XYZ 公式 至少 X% 的 Y,會做 Z
X  =  量化門檻。你預期的最低成功比例是多少?要在實驗前就定好,不能事後回推。
Y  =  目標族群。要具體到可以找到這些人,不能只說「用戶」。
Z  =  可觀察的具體行動。「喜歡」不算,「點擊按鈕」算。

XYZ 的厲害之處,是它強迫你面對三個你可能不想回答的問題:

X 問你:多少才算成功?60% 採用率和 20% 採用率,對商業模式的意義天差地遠。

Y 問你:你真的知道你的用戶是誰嗎?不同族群的行為假設可能完全不同。

Z 問你:你要觀察什麼行為?「用戶覺得有用」無法在 48 小時實驗中被觀察到。

用 XYZ 公式寫林薇的假設
至少 60% 的客服專員(Y),在收到 AI 建議後,會直接點擊「採用建議」或僅做小幅修改後送出(Z)
為什麼是 60%? 
低於這個門檻,系統節省的人力成本不足以支撐開發投資。這個數字要在實驗前定義好,防止「結果出來再說」的自我欺騙。

「用戶喜歡 AI 功能」不是一個假設,因為它沒有 X(多少算喜歡?),Y 太模糊,Z 無法觀察。套用 XYZ 公式是寫假設的第一步,也是最難的一步。


第三幕:林薇的 48 小時實驗

讓我們用一個具體故事來示範整個流程。

情境: 林薇的團隊想開發 AI 自動回覆客服系統。工程估算六個月。

Step 1:用 XYZ 公式定義危險假設

林薇把「客服人員應該會喜歡 AI 建議」這個模糊念頭,套進 XYZ 公式,寫成一個可以被驗證的假設:

XYZ 假設
至少 60%(X)的客服專員(Y),在處理退款申請時,會直接採用或小幅修改 AI 建議後送出,而不是自己重新撰寫(Z)
X = 60%  |  Y = 客服專員(處理退款)  |  Z = 採用或小幅修改後送出

為什麼是「危險假設」?因為 X 設定了明確的失敗線:如果採用率低於 60%,ROI 就不成立,整個專案就不該做。這個數字要在實驗前定好,防止事後「調整標準」。

Step 2:用 AI Coding 建假裝介面

林薇用 Claude 寫了一個 prompt:

給 AI 的 Prompt
「幫我建一個客服回覆介面,顯示客戶訊息和一個『AI 建議回覆』的文字框。當客服人員點擊『採用 AI 建議』時,發一個通知到我的 Email,附上他們是否修改過內容。」

整個介面用 Cursor 在半天內完成。後端不是 AI,是林薇自己事先準備好的「罐頭回覆」,手動貼進系統。

Step 3:你就是那個「AI」

客服人員看到的是「AI 建議」,實際上是林薇根據情境手動選擇並輸入的標準回覆。這是 Mechanical Turk 的精髓:人在背後操作,觀察真實行為反應。

重點不是建立可擴展的系統,而是觀察,記錄,問問題

• 他們在哪個步驟猶豫?

• 他們修改了 AI 建議的哪些部分?

• 他們在什麼情況下直接放棄 AI 建議、自己寫?

Step 4:找到你的「34%」

三天,47 筆客服互動後,林薇有了數據:

實驗結果
✓  78% 的回覆被直接採用或小幅修改
✓  34% 的案例需要查詢訂單資料庫才能給出建議
✗  12% 的案例,客服人員完全放棄建議,原因是情緒處理需求

那 34% 就是「真實洞察」——純 AI 系統若沒有整合訂單資料庫,有三分之一的工作根本做不了。

這個發現,讓林薇在任何工程師動手之前,就重新定義了整個系統的架構優先序。


第四幕:AI Coding 為何讓 Mechanical Turk 進化?

過去,建一個「假裝介面」需要工程師花數週時間。這讓 Pretotyping 只存在於書本和演講裡。

現在,任何人可以在幾小時內用 Claude、Cursor 或 v0 建出外表逼真的產品外殼,成本趨近於零。

AI Coding 之前
建假裝介面需要 1-2 週工程時間 高成本 → 少做驗證實驗 Pretotyping 停留在理論層面
AI Coding 時代
任何人用自然語言,數小時內建好外殼 低成本 → 每週可跑多個驗證實驗 Pretotyping 成為每個 PM 的基本技能

但不變的核心是:你仍然需要一個清晰的行為假設,和誠實面對數據的勇氣

AI Coding 只是讓「建外殼」的成本消失了,它不能替你定義值得驗證的假設,也不能替你解讀那些讓人不舒服的結果。


第五幕:現代 Mechanical Turk Playbook(五步驟)

1. 用 XYZ 公式寫下你的危險假設
套入公式:「至少 X% 的 Y,會做 Z」。先定義 X(多少才算成功),再定義 Y(誰是你的目標族群),最後定義 Z(什麼行為可以被觀察記錄)。這三個問題若答不出來,就還沒準備好開始實驗。

2. 識別你的 Turk 機制
誰在桌子裡?你需要哪些「人力後端」來模擬系統運作?可以是你自己、你的團隊成員、或是招募的工讀生。明確定義觀察什麼行為,記錄什麼數據。

3. 用 AI Coding 建外殼(給 Claude 的 Prompt 範本)

Prompt 範本
「幫我建一個 [功能名稱] 的介面,讓 [目標用戶] 可以 [核心行動]。當用戶 [關鍵互動行為] 時,發一個通知到 [聯絡方式],記錄 [觀察數據]。視覺上要像一個真實產品,不需要後端邏輯。」

4. 執行:你是那個 AI
讓真實用戶與介面互動,你在後端手動操作。記錄每一次互動:卡在哪?問了什麼?放棄了嗎?設定明確的停止條件,例如「20 個用戶互動後停止」或「3 天後統計」。

5. 決策:建、轉、或放棄

以數據為基礎做三選一:

• 數據強力支持假設 → 全力建造,並帶著這些洞察重新設計架構

• 部分支持,發現新的關鍵變數 → 轉向,修正假設,再做一輪

• 數據否定假設 → 提早放棄,把六個月工期省下來


可以驗證哪些假設?三個真實場景範例

選擇 Mechanical Turk 場景有一個關鍵前提:用戶本來就不期待即時結果。 延遲是產品設計的一部分,不是缺陷。以下三個場景都符合這個條件。

場景一:AI 合約風險審查

法務人員或業務上傳合約後,隔天收到一份「AI 標示風險條款、建議修改方向」的報告。這是正常的專業服務節奏,沒有人期待合約審查是即時的。

XYZ 假設
至少 55% 的法務/業務人員(Y),在收到 AI 合約審查報告後,會以報告中標示的風險點為基礎進行談判或修改,而不是忽略報告自己重看(Z)

Turk 機制: 人工閱讀合約、標示條款、寫建議,透過介面呈現為「AI 報告」。用戶上傳後看到「分析中,預計 2-4 小時完成」,完全符合預期。X = 55%,低於此代表用戶不信任報告品質,產品沒有價值。

場景二:AI 競品分析報告

產品經理或行銷人員輸入競品名稱與自家產品定位,數小時後收到一份結構化的競品分析。這本來就是需要時間的任務,用戶預期的是「今天送出、明天看到」。

XYZ 假設
至少 50% 的產品經理(Y),在收到 AI 競品分析報告後,會將其中至少一個洞察直接納入下一次的產品規劃會議(Z)

Turk 機制: 人工搜集競品資料、整理成標準化報告格式,透過介面呈現為「AI 生成」。這裡的 Z 特別重要:不是「覺得有用」,而是「實際用進規劃會議」,這是可以追蹤的行為。

場景三:AI 個人化健身菜單

用戶填完健康狀況、目標、可用時間的問卷後,「AI 在 24 小時內生成你的專屬四週訓練計畫」。這個等待時間本身傳遞了「這是認真為你客製化的」的訊號。

XYZ 假設
至少 45% 的用戶(Y),在收到個人化菜單後,會在第一週內按照計畫完成至少三次訓練(Z)

Turk 機制: 人工根據用戶填寫的問卷,套用訓練原則組合出菜單,透過介面呈現為「AI 生成」。Z 不是「喜歡菜單」,而是「真的去做了」,這才是產品能否留存的關鍵指標。

什麼情境不適合 Turk 法?

Mechanical Turk 有一條明確的邊界:當用戶期待即時互動時,這個方法就失效了。

不適合的情境
✗  對話式 AI 助理  —  用戶不斷修改提示、期待即時回覆,人工根本跟不上
✗  即時推薦系統  —  用戶滑動頁面期待毫秒級個人化,人工無法模擬
✗  高頻重複操作  —  每天使用多次的功能,人力成本會快速失控 這些情境需要其他 Pretotyping 手法,例如 Pinocchio(純前端假裝有功能)或 Fake Door(只做入口,點擊後顯示「即將推出」)。



尾聲:土耳其人的遺產

1770 年,von Kempelen 用一個藏在桌子裡的棋手,讓世人相信機器智慧已經到來。

這不是欺騙,這是對自己誠實的最快路徑——在你宣告「機器可以做到」之前,先確認「人用這個方式做到」是否真的有價值。

在 AI Coding 讓建立外殼的成本趨近於零的今天,每一個 Product Builder 都可以成為 von Kempelen。

在投資六個月之前,先坐進那個桌子裡。

本文核心三問,給每位 Product Builder
1. 你最危險的行為假設是什麼?(如果它是錯的,整個產品就垮了)
2. 你需要誰坐在桌子裡,才能在一週內模擬這個系統?
3. 你需要看到什麼數據,才能決定值得繼續投入?

發表迴響

探索更多來自 轉念學 - 敏捷三叔公的學習之旅 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading