今日當機, 明日忘記 – Crowdstrike 事件的感想

今天公祭,明天忘記. 是公安事件發生, 常常被流傳的一句話

每次大場面發生後, 往往都是基層和小老百姓倒霉

長官在喊完口號, 之後就馬照跑舞照跳, 一切照舊

同樣,軟體開發也是類似場景

2021年 LXne Pay全球大出包, 逾7萬台灣用戶個資受影響

2023年 國X證券App在7月兩度當機惹議, 金管會宣布對國X綜合證券處以新台幣150萬元罰鍰, 國X期貨罰60萬元, 合計共裁罰210萬元

2023年 1XLIVE 控 綠X交易系統出現失誤, 導致出現千萬元短收差異

2024 年7月 資安公司Crowdstrike, 他的軟體Falcon Sensor造成微軟Windows作業系統當機,螢幕呈現藍色畫面, 導致全球機場服務當機, 很多交通, 旅遊業受到嚴重影響.

雖然這些慘事不斷在重複發生, 但是軟體品質, 軟體測試 似乎沒有特別重視

若不是當年 eXtreme Programming 有TDD, continuous integration

否則測試應該沒人知道, 不過這也只是紅了測試自動化而已

Crowdstrike 的事件, 對於資安公司來說不是新聞了

前公司在 2005 年時, 也發生了類似的事件, 當年七天蒸發170億

不過當年我覺得前公司非常正面面對, 並且事情處理得很漂亮

很值得跟大家分享, 當年做對了什麼.

新聞連結

https://finance.ettoday.net/news/312735?fbclid=IwZXh0bgNhZW0CMTEAAR3vxWwNl-7nQWH4UonufPpfFzWQn_hcbFEcqPU51J4dzWfB2oCWAMzwb18_aem_yONzqaSBwu6RkMAGOuMzCA

免責文化

通常這樣的事情發生,

很多公司第一時間就是抓戰犯

先指出是誰的錯

然後整個公司就瀰漫在肅殺的氣氛中

深怕誰出聲誰倒楣

可是當年 CEO 下命保密, 不能說出是誰做的

反正就是一起把事情解決

所以在當下大家雖然很累, 但是不會怕說有算帳這件事情

心理安全感會被 Google 視為高效團隊第一件重要的事情

這確實是有道理的

先求不傷身

老實說要把所有狀況都測到這真的很難

更何況你沒有 QA, 或是你根本沒有測試時間

當這種事情發生時, 你需要有機制去處理

很多公司是沒有招的, 所以一發生就整個亂七八招的

有的公司就是要求 RD 要解得快, 這招其實也不錯

不管你系統品質好不好, 反正出事後解得快久沒事了

但是像這樣核爆事件, 應該很難用解得快來處理

當年我們有 pattern rollback 機制, 很多大型客戶都有我們安裝這個機制

因此出事時, 這個機制幫我們減緩不少慘狀

立刻改善

很多公司都會說我們之後會改

但是那個之後不知哪天才會發生

那件事情發生後, CEO 就發話了

在一個月內, 所有產品, 所有語系, 之前發行的各個版本

要準備和這些場景的測試自動化

並且這個場景的執行需要在 30 分鐘內跑完

如果沒有執行通知, 每個小時會有專人找你問狀況

直到一切都通過沒有問題

所以人家都是在喊計畫, 那時候我們是行動

所以當你們品質遇到問題時, 你們都怎麼處理?

發表迴響

探索更多來自 轉念學 - 敏捷三叔公的學習之旅 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading