AI Coding 時代,RD : QA 還能維持 10:1 嗎?

Faros AI 在 2025 年分析了 10,000+ 名開發者、橫跨 1,255 個團隊的遙測資料,得出三個讓所有工程主管都該停下來想一下的數字:

  • 個別開發者完成任務數 +21%、PR 合併數 +98%
  • 但 PR 大小膨脹 +154%、Review 時間暴增 +91%
  • DORA 交付指標(部署頻率、Lead Time、MTTR、變更失敗率)幾乎沒變

這就是被稱為「AI Productivity Paradox」(AI 生產力悖論)的現象。為什麼會這樣?因為瓶頸已經換位置了,但很多團隊還沒發現。

一、老問題:RD 跟 QA 的比例應該是多少?

「開發人員和測試人員的比例應該是多少?」這是擴編或規劃人力時最常被提出的問題。

過去業界有過一些參考數字 —— 微軟某些階段採取 1:1 或 2:1,Google 長期維持較高的開發比(早期約 10:1,SET / TE 角色融入開發團隊),也有公司完全沒有專職測試。差異這麼大,關鍵在情境與測試策略。

但到了 AI coding 時代,這個計算邏輯本身正在被重新洗牌。

二、新現實:開發產出爆量,Review 跟 QA 雙重塞車

Faros AI 的四個數字,清楚說明了 AI coding 對研發體系的真實影響:

  • PR 合併數 +98% — 產出真的翻倍了
  • PR 大小 +154% — 每個 PR 變得更難 review
  • Review 時間 +91% — Review 變成新的瓶頸
  • DORA 指標沒變 — 組織交付效率根本沒提升

這就是 Amdahl’s Law 在 AI coding 時代的具體呈現 —— 你加速了寫程式這個環節,但 Review、測試、整合、部署沒跟上,整體交付速度就停在原地。

Greptile《State of AI Coding 2025》也佐證:6~15 人的中型開發團隊產出提升 89%,每位開發者的 PR 數年增 20%,但 Review 容量幾乎沒擴張。

Katalon 在 2026 年的 QA 報告中,把這個現象命名為「QA Spiral」(QA 死亡螺旋):

  • AI 生成程式碼進入 pipeline,缺陷密度更高
  • 每個 PR 帶來更多 rework 與維護成本
  • QA 變成瓶頸,版本被卡住
  • 為了趕進度,管理層砍測試
  • 更多 bug 跑到 production,事故成本上升
  • QA 預算被進一步壓縮,惡性循環繼續

報告中還有一句更刺耳的話:「QA 拿不到 AI 轉型的新預算,既有預算反而被重新分配到開發端的 AI 工具上。」

三、AI 寫的程式碼,品質到底怎樣?

這部分有非常多研究,我挑三份最具份量的給大家參考:

Veracode《2025 GenAI Code Security Report》

測試超過 100 個 LLM、橫跨 Java / Python / C# / JavaScript,聚焦四類 OWASP 漏洞:

  • 45% 的 AI 生成程式碼引入了 OWASP Top 10 漏洞
  • Java 失敗率最高,達 72%
  • Cross-Site Scripting 失敗率 86%,Log Injection 88%
  • 2026 年 3 月最新更新:模型升級了,通過率仍卡在 55% 左右,沒有實質改善

Apiiro(Fortune 50 企業實證)

研究 Fortune 50 等級的企業導入 AI coding 後的實際狀況:

  • 每月新增超過 10,000 個安全發現(六個月內成長 10 倍)
  • 權限提升攻擊路徑增加 322%
  • 架構設計缺陷增加 153%
  • Secrets 外洩成長 40%

CodeRabbit《State of AI vs Human Code Generation》

分析 470 個 GitHub PR,AI 撰寫 vs 人類撰寫的直接對比:

  • AI 生成的 PR 比人類寫的 PR 多出約 1.7 倍的問題
  • Logic 與正確性錯誤增加 75%
  • 安全性漏洞增加 1.5~2 倍(部分類別如 XSS 達 2.74 倍)
  • 可讀性問題增加 3 倍以上(命名與格式不一致)
  • 效能問題出現頻率近 8 倍(如過量 I/O)

更值得警惕的是 Stanford 2022 年的研究(Perry, Srivastava, Kumar, Boneh):

47 位受測者使用 OpenAI codex-davinci-002 模型(Copilot 的前代),在 Python / C / Verilog 解 25 種漏洞題目。結果發現:**使用 AI 助手的開發者寫出較不安全的程式碼,特別在 string encryption 與 SQL injection 這兩類,但他們自己卻覺得寫得比較安全。**

有人會說「這是 2022 年的舊研究、模型早就升級了」,但 2025 年 CodeRabbit 的 470 個 PR 對比、Backslash Security 對 7 個 LLM 的測試,以及前述 Veracode 對 100+ LLM 的測試,都再次驗證了同樣的 False Confidence(假信心)效應 —— 即使模型升級,問題依然存在。

Stanford 還有一個對台灣讀者特別有用的發現:對 AI 信任度較低、會主動調整 prompt 的開發者,寫出來的程式碼反而比較安全。這提示我們—— AI coding 時代,健康的懷疑態度本身就是一種能力。

四、那 AI coding 時代,測試人力到底要怎麼配?

以下幾個因素,是現在規劃比例時應該納入的核心考量:

1. 產品特性決定 AI 介入的深度

內部工具或許可以接受 AI 直接生成、輕量 Review 上線;但金融、醫療、車用、IoT 系統,即便 AI 已寫好實作與測試,人類測試專家仍需介入做 Adversarial Testing(Fuzzing、Property-Based、Metamorphic),來挑戰 AI 自己看不見的盲點。

2. 新增的測試活動正在吃掉人力

AI coding 時代真正吃人力的測試活動是:

  • AI 生成程式碼的依賴驗證(Slopsquatting 風險,套件幻覺率商用模型約 5%、開源模型超過 20%)
  • SAST / SCA 掃描與漏洞分類
  • AI 生成測試案例的人工 Review Gate(避免 AI 自己寫測試、自己驗證)
  • Triage Agent 介入後的人工複核
  • 效能與相容性測試(AI 經常忽略非功能性需求)

3. 用實際數據回饋來調整,而不是用比例硬套

在 AI coding 環境下,值得追蹤的指標:

  • 每週 AI 輔助產出 vs 純人工產出的比例
  • AI 生成程式碼缺陷密度 vs 人工撰寫缺陷密度
  • 缺陷的 L1 / L2 / L3 嚴重程度分佈
  • PR Review 時間趨勢、Review 隊列長度
  • Predictive Test Selection 命中率(若已導入)
  • AI 生成的測試案例是否真的測到關鍵路徑,還是只測到 Happy Path?

五、結論:AI 沒讓測試人力需求變少,只是改變了它的形狀

與其問「開發跟測試的比例應該多少?」,不如問:「在 AI 加速產出的現況下,我們的測試風險與品質目標,需要哪些角色與多少人力來支撐?」

很多管理層誤以為 AI coding 會讓測試人力需求下降,但實務上恰好相反 —— AI 讓「產出」變便宜,卻讓「驗證產出是否正確」這件事的價值大幅上升。

IDC FutureScape 也預測,到 2028 年 80% 的軟體測試將由 AI 生成,但人類測試人員的角色會從「執行」轉為「策略與監督」。TestRail 2026 年的調查也顯示,34% 的測試人員表示 AI 已經讓他們能花更多時間在高價值、複雜的工作上。

測試不是測試人員的責任,而是整個團隊的責任。

AI 不會取代測試人員,但會淘汰只懂機械式重複執行的測試人員;

懂得設計風險、做對抗式探索、把關 AI 產出的測試人員,反而會變得更搶手。

比例只是資源分配的表象,品質文化才是根本。

━━━━━━━━━━━━━━━

你們團隊的 RD : QA 是多少?導入 AI coding 之後,有調整過嗎?歡迎留言分享。

#AI Coding #軟體測試 #QA #敏捷三叔公 #DavidKo #測試人力 #Veracode #Apiiro #CodeRabbit #FarosAI #品質管理 #軟體品質 #敏捷開發 #SBE

📚 資料來源

  • Faros AI, The AI Productivity Paradox Research Report (2025) — 10,000+ developers, 1,255 teams
  • Greptile, State of AI Coding 2025
  • Katalon, AI in Software Testing: The Triple Threat to QA in 2026
  • Veracode, 2025 GenAI Code Security Report (Oct 2025 + Mar 2026 updates)
  • Apiiro, AI-Assisted Development Research at Fortune 50 (2025/09)
  • CodeRabbit, State of AI vs Human Code Generation Report (2025/12, 470 PRs)
  • Perry, Srivastava, Kumar, Boneh (Stanford, 2022), arXiv 2211.03622 — codex-davinci-002, 47 participants
  • Backslash Security, LLM Code Security Study (2025/04)
  • IDC FutureScape: Worldwide Developer and DevOps 2024 Predictions
  • TestRail, 4th Edition Software Testing & Quality Report (2026/03)
  • Kusari, AI Coding Assistants in 2026: 4× Faster, 10× Riskier

發表迴響

探索更多來自 轉念學 - 敏捷三叔公的學習之旅 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading