穀倉效應給敏捷團隊的啟示:從克里夫蘭醫學中心到 AI coding 時代

最近部門經理在研讀《穀倉效應》(The Silo Effect),第七章提到克里夫蘭醫學中心為了打破穀倉現象所做的改革,剛好跟 Scrum 團隊的設計不謀而合。趁這個機會,把他們的做法整理出來跟大家分享,順便用 AI coding 時代的角度重新看一次——這些幾十年前的組織智慧,在 AI 大量產出程式碼的今天,反而更值得拿出來對照。

什麼是穀倉效應

穀倉效應是一種文化現象。根據維基百科的定義,它指的是企業內部因為缺少溝通,部門間各自為政,只有垂直的指揮系統,沒有水平的協同機制,就像一個個穀倉,各自擁有獨立的進出系統,卻缺少穀倉與穀倉之間的溝通和互動。[1]

在現今專業分工、強調效率的環境下,這個現象更明顯。大家為了追求自己角色或局部的最佳化,反而忽略了整體最佳化,也忽略了應該交付給客戶的價值。

舉例來說:傳統開發方法因為專業分工,切出了 RD、QA、Ops 等角色,每個人都只想把自己手上的工作做好做快。RD 希望需求最好不要變,這樣才能一次開發到位;RD/QA 只想把產品交付出去,不太管這東西部署起來方不方便、會不會影響客戶日常作業。

正是為了改善「角色之間不溝通、不以客戶方便為導向」這個問題,才有了 Agile 和 DevOps 這些做法——讓 RD、QA、Ops 合為一體,以交付價值為導向,三者緊密合作。

克里夫蘭醫學中心是誰

克里夫蘭醫學中心是世界最著名的醫療機構之一,集醫療、研究、教育三位一體,是提供專業醫療和最新治療方案的非營利機構。

它被美國以及全世界公認為頂級醫療中心之一,尤其在醫療技術、醫療管理系統,以及心血管疾病治療方面表現突出。它的心臟病診療計畫連續 21 年入圍全美最佳,在《美國新聞與世界報導》評選的年度最佳醫院中常常名列前茅;泌尿外科、胃腸科、腎臟科和風濕病科位居全美第二,其他幾個科室也都名列前茅。[1]簡單說,就是一整個強到爆。

觸發改革的那個問題

書中提到,在一場演講中,有人問當時的執行長托比・寇斯葛洛夫(Toby Cosgrove):「你們會教導醫護人員要有同理心嗎?」

會這樣問,是因為這位發問者的親人有心臟疾病,原本想去克里夫蘭就診,卻因為感受不到醫護人員的同理心,最後選擇了其他醫院。

這件事讓寇斯葛洛夫很在意。因為即使醫術全國頂尖,那也是「自己的技術和名聲很棒」;但對病患來說,專業技術真的是他們要的全部嗎?或許他要的價值不只是好的醫術,還想要被關心、被了解、被照顧。

於是托比把醫療的主體從醫生移回病患身上,做出了四項改革。下面每一項,我都接著對照 Scrum/敏捷的精神,再用 AI coding 時代的角度反思一次。

以疾病或病人為主,而非以科別分類

你可能遇過:去醫院看病,如果不是你掛的那一科負責,就要轉去別科,或者等別科的資料過來,搞得你等很久,還擔心這些醫師根本沒坐在一起討論過——這樣得出的結果真的對嗎?

為了解決這個現象,托比廢除了內外科的分界,改以「疾病或病人」為主,建立一個個跨科的「institute(醫療中心)」,讓外科、內科醫師與其他人員一起攜手治療同一個病患。這樣病情才能被綜合考量,不會只看單一面向;不同科別的醫師也能相互交流、學到更多。

對照 Scrum

Scrum Team 正是這種精神。它不強調職稱,大家團結合作,一方面貢獻自己所長,一方面學習其他角色的技能,整體戰力才會更強。Feature team 的用意也跟「以病人為中心」一樣——團隊本身就有能力把事情處理完,不必再依賴別的團隊來幫忙。

AI coding 時代反思

傳統上我們用科別(前端、後端、測試、維運)切團隊。AI coding 工具讓單一工程師能跨層產出程式碼,表面上科別的牆變矮了。但新的穀倉跑出來了——它出現在「產生程式碼的人」和「驗證程式碼的人」之間。

產出變便宜,驗證卻變貴:程式碼審查平台 CodeRabbit 在 2025 年 12 月的報告指出,AI 共同撰寫的 PR 大約多出 1.7 倍的問題[10];GitClear 分析 2.11 億行變更,發現兩週內就被改掉的 code churn 從 2020 年的 3.1% 升到 2024 年的 5.7%,與 AI 採用率上升同步[11]。換句話說,AI 一天生出的程式碼量已經超過人能審查的速度,如果團隊還停在「我寫完丟給你審」的科別式分工,驗證就會塞車(verification bottleneck)。

這時候 feature team 的精神更關鍵:同一群人要同時握有產生與驗證的能力,讓 spec、實作、測試、上線在同一個團隊裡閉環,而不是把 AI 的產出丟過牆給下一個科別。

小組合作模式

一般醫院的運作,就像電視上演的:有位主治大夫、或者一位像「醫龍」那樣的人物出現,告訴大家要做什麼,然後所有人照表操課。

但碰到急診、意外頻傳的場面——例如戰爭、恐怖攻擊——情況往往超過任何單一醫師能掌控的範圍。這時候,那位很強的醫生反而變成瓶頸。加上科技進步、各種污染與傳染源層出不窮,再加上過度細分的專業技術,連單科醫生都不容易掌握全部狀況。

這裡要先解釋一下後面會一直用到的「越戰模式」,因為這個說法台灣比較少聽到。它指的是越戰時期戰地醫療發展出來的一套運作方式。傳統醫院的搶救是金字塔式的:一位資深主刀醫師站在頂端發號施令,其他人照指令動作。但戰場上傷患一次大量湧入、傷勢千奇百怪,狀況遠超過任何一位醫師能獨自判斷,這時候那位最強的人反而卡住整條線。

於是軍醫改了做法:讓資深外科醫師退下指揮的位置,把判斷權交還給團隊裡的其他醫師與護理人員,大家依照事前共同演練過的流程各自處置、邊做邊一起討論。撐住整個搶救的,是平時練出來的默契和彼此的信任,而不是等一個人下令。書中提到,這個改變讓急救復甦時間整整縮短一半,從 122 分鐘降到 56 分鐘。後來在 2013 年的波士頓馬拉松爆炸案,醫院面對大量傷患時也是靠同一套「團隊分散決策」的模式,在混亂中高效救回了許多人。

所以兩種模式的差別很清楚:醫龍模式強調指揮和控制,容易把團隊成員當笨蛋,一切聽我指揮、不要想太多;越戰模式強調的是應變和合作,背後靠的是信任和使命的連結——相信每個成員,相信其他人為了多救一個人,連犧牲自己都在所不惜。托比認為,戰時這套有效的做法,平時也該能用:由不同背景的人才組成醫療小組,一起討論、一起治療病人。克里夫蘭也就用這個方式重新拆解組織。

對照 Scrum

看到這裡,應該很容易聯想到 Scrum 團隊要 self-organizing、不要 command and control——兩者講的是同一件事。

AI coding 時代反思

這裡很容易直覺地把醫龍對應到「團隊裡最會用 AI、什麼 prompt 都他來下的那個人」,但現實剛好相反。AI 工具的採用是擴散式、由下而上的:JetBrains 2026 年 1 月的調查顯示,90% 的開發者在工作中固定使用至少一種 AI 工具,七成的人同時用 2 到 4 種[9]。常見的路徑是個別工程師自己裝、自己報帳,等公司採購注意到,它已經長進日常工作流,連「一種工具給全公司用」的模式都在被放棄。所以瓶頸並不集中在某個英雄身上,而是每個人都在自己的位置上獨立產出,整隊加起來的量遠超過大家能一起審查的速度。

醫龍模式在這裡真正的對應,是把驗證也想成可以集中化——找一個資深的人把所有 AI 產出審完。這條路會死,因為一個腦袋扛不住全隊的洪流,他只會變成新的瓶頸,把全團隊的認知負荷壓在他一個人身上。撐得住的還是越戰模式那一套:把「這段 AI 寫的能不能信」的判斷分散到團隊,用結對或群審一起看,讓資深的人從「自己審完一切」轉成「定義驗證標準、帶大家一起審」。信任和共同責任要接住的,是分散的過度產出,而不是某個指揮官的卡關。

固定薪水機制

醫生大多採績效給薪,看的是業績。問題是,如果想賺更多,就會壓縮花在每個病人身上的時間——這樣的醫療你會想要嗎?所以克里夫蘭改採固定薪水制,一開始就談定薪資,讓醫生不會為了多看幾個病人而犧牲醫療品質。

對照敏捷

導入敏捷時,我們也在談績效評估方式要改變,要鼓勵大家往對的方向走,而不是用個人獎勵把大家逼向局部最佳化。坦白說這仍是個大難題,目前沒有漂亮的結論(延伸閱讀見文末 [3]、[4])。

AI coding 時代反思

業績制讓醫生想多看病人而犧牲品質;AI coding 時代有個一模一樣的陷阱。如果你用程式碼行數、PR 數、commit 數來衡量工程師,AI 會讓這些數字輕鬆灌水,但灌出來的多半是還沒被驗證的「驗證債」。

這不是憑感覺:Faros AI 根據 1,255 個團隊、超過一萬名開發者的遙測資料發現,AI 工具確實拉高了個人產出,但這些收益沒有轉化成公司層級的生產力,反而與每位開發者多出 9% 的 bug 相關[12](這是工具廠商的遙測數據,引用時要標明)。Google 的 DORA 2025 報告也指出,個人吞吐量上升 21% 到 55%,但若缺乏扎實的工程基礎,組織層級的交付穩定性反而下降[13]

更值得放進投影片的是 METR 那場隨機對照試驗:找來資深的開源開發者,用 AI 的那組實際上慢了 19%,但他們自己以為快了 20%[14]。個人指標漂亮、感覺很快,系統品質卻在背後慢慢崩——這就是局部最佳化,只是 AI 把它放大了。衡量的對象要從「個人生出多少程式碼」(output) 移回「交付給用戶的成果」(outcome),不然 AI 只會幫你把錯的指標衝得更快。

同理用戶

「改善用戶體驗」這句話大家都會講,但托比不是只是嘴上說說。他任命了體驗長(CXO) 專職處理,要求所有員工參加同理心訓練課程,還辦了同理心研討會,到 2019 年已經是第十屆——說到做到[5][6]。他們最有名的那支同理心影片,連 IDEO 都專文推薦[7]

對照 Scrum

以用戶為主,是所有有效團隊的共同起點;但在 AI 時代,這一點從「口號」變成了真正的防線。

AI coding 時代反思

先講清楚這段是倡議,不是現況描述——目前業界多數人是 ad hoc 地下 prompt,很少先把規格講清楚再讓 AI 動手。但這正是缺口所在。AI 讓我們很快就能做出「看起來對」的功能,Stack Overflow 2025 調查就有 66% 的開發者抱怨 AI 的產出「幾乎對,但又不太對」,對輸出的信任度從 2024 年的四成掉到 2025 年的 29%[15]。快不等於做對東西,把錯的東西做得更快,傷害只會更大。

同理用戶在 AI 時代最該補上的著力點,就是在讓 AI 寫之前先把「用戶到底要什麼」講清楚。這正是 Specification by Example/ATDD 在做的事——用具體例子跟用戶(或 PO)對齊需求,讓那個例子同時變成 AI 的規格,也變成後面驗證的依據。把同理心前置到需求釐清,AI 才不會高速地幫你做出沒人要的東西。這不是現在大家都這樣做,而是在這個時間點最值得補起來的一塊。

整體反思:AI 沒有消滅穀倉,它把牆搬了位置

從克里夫蘭的案例可以看到,有效團隊所具備的精神,不管在哪個領域都差不多:

  • 自組織
  • 有共同信念
  • 互信
  • 跨職能
  • 以用戶為主

要落實這些理念,組織結構和文化必須配合,得從價值觀開始改變,讓大家知道為何而戰;接著用組織切割(跨職能的自組織小團隊)來鞏固這些精神和意志,變革才能真正落地生根。[8]

把這套放到 AI coding 時代再看一次,會發現一件事:AI 並沒有消滅穀倉,它只是把穀倉的牆從「角色之間」搬到了「產生與驗證之間」。產出便宜了,驗證變貴了;瓶頸從「誰來寫」變成「誰來確認這能信」。克里夫蘭那四招——以病人(用戶)為中心、團隊應變勝過英雄、把指標對準成果而非業績、把同理心前置——拿來對付這道新的牆,剛剛好。

所以結論跟原本一樣,只是換了個對象。導入 AI coding 工具,如果只是發 license、教大家怎麼下 prompt,卻沒去調整團隊怎麼切、怎麼一起審查 AI 的產出、用什麼指標衡量、怎麼跟用戶對齊需求,那 AI 只會讓你更快累積一堆還沒人驗證的程式碼。先把結構和文化調好,工具才接得住。

參考資料

AI 時代的數據多為二手彙整與工具廠商數據,已標明各筆來源的性質(問卷/廠商遙測/獨立研究)。正式投影片或文章發布前,建議回到各機構的原始報告再確認一次數字與年份。

原文相關出處

  1. 克里夫蘭醫學中心(維基百科)。zh.wikipedia.org
  2. 醫生薪資結構與看診時間的關係(The News Lens 關鍵評論網)。thenewslens.com/article/40113
  3. 怎麼有效衡量敏捷團隊績效?(微信公眾號)。mp.weixin.qq.com
  4. 績效考核——敏捷轉型的鴻溝(Thoughtworks Insights)。insights.thoughtworkers.org
  5. Patient Experience: Empathy & Innovation Summit(Cleveland Clinic)。my.clevelandclinic.org
  6. Cleveland Clinic Patient Experience Summit, May 2017(YouTube 介紹影片)。youtube.com/watch?v=rDYSZ8hdgo4
  7. A Lesson in Empathy(IDEO Design Thinking Blog,推薦克里夫蘭同理心影片)。designthinking.ideo.com
  8. Leading Agility Inside-Out(Pete Behrens,SlideShare)。slideshare.net/petebehrens

AI 時代數據與研究

  1. JetBrains,AI Pulse / State of Developer Ecosystem(2026 年 1 月):90% 開發者工作中使用 AI 工具、多工具併用比例。問卷調查
  2. CodeRabbit(2025 年 12 月報告):AI 共同撰寫的 PR 約多出 1.7 倍問題。程式碼審查工具廠商數據
  3. GitClear:code churn 由 3.1%(2020)升至 5.7%(2024),分析 2.11 億行變更。第三方分析
  4. Faros AI:1,255 團隊、逾一萬名開發者遙測;個人產出上升但未轉化為公司層級生產力,與每位開發者多 9% bug 相關。工具廠商遙測
  5. Google DORA 2025 報告:個人吞吐量 +21%~55%,缺乏工程基礎時組織交付穩定性下降。產業研究報告
  6. METR,隨機對照試驗(arXiv,2025):資深開源開發者用 AI 慢 19%、自評快 20%。獨立非營利機構 RCT
  7. Stack Overflow 2025 Developer Survey:66% 反映 AI 產出「幾乎對但不太對」、信任度由 40%(2024)降至 29%(2025)。問卷調查

發表迴響

探索更多來自 轉念學 - 敏捷三叔公的學習之旅 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

繼續閱讀