日前,谷歌云(Google Cloud)服務宕機和性能下降的問題很快得到了修復,最終對客戶的影響也比較有限,但它還是提醒客戶:他們必須向供應商施加更多壓力,以提高云的可靠性。
3月11日,兩項谷歌云服務中斷:客戶用來管理他們的賬戶和項目的Google Cloud Console;以及Cloud Dataflow,這是一項用于處理批處理和流數據的服務。
谷歌云宕機解決了?用戶風險依然存在
根據谷歌的事后分析,由于其最新版本的谷歌云配額系統的代碼更改,Cloud Console在4小時內不可用。該bug導致系統退回到較低的速率限制,從而導致請求被拒絕。
而另一項造成系統滯后超過19小時的Cloud Dataflow問題在3月12日得到了全面解決。谷歌表示,事故原因仍在調查中。
與此同時,谷歌云存儲在3月12日經歷了4小時的高錯誤率,以至影響了所有地區。根據事后報告,這個問題源于谷歌現場可靠性工程師(SREs)采取的行動。
3月11日,谷歌SREs發現,連接到谷歌內部Blob存儲服務元數據的存儲使用量激增。為了減少這種使用,SREs進行了配置更改,導致系統中查找博客數據位置的部分過載,而增加的負載最終導致“連鎖故障”,谷歌說。
谷歌應用程序引擎的相關中斷導致Blob Store API和應用程序引擎部署出現了問題,這些問題也持續了大約四個小時。
報告稱,谷歌還計劃改進其隔離存儲服務區域的方式,以避免未來谷歌云該中斷問題在全球的爆發。
總體云可靠性仍然是一個大目標
所有云服務供應商都會經歷宕機問題。然而,考慮到谷歌云在市場份額上遠遠落后于AWS和Azure,它特別需要解決這個問題。Constellation Research分析師Holger Mueller稱,這是買方市場,盡管谷歌的快速補救措施和透明度對客戶來說也很有價值,但客戶將尋求最可靠的選擇。
然而,一些客戶可能擔心,在詳細描述谷歌云存儲中斷的報告中,谷歌指的是在區域之間增加更多的隔離。
Mueller說:“區域隔離是云計算正常運行時間和恢復能力的關鍵,如果供應商不能做到這一點,這就會令人擔憂。”“他們要想知道谷歌是否成功地解決了這個問題,唯一的辦法就是等待它再次故障。”
IDC分析師Stephen Elliot表示,通過使用先進的管理、編排和負載平衡技術,計劃外的云服務中斷應該會隨著時間的推移而減少。他表示:“這是企業客戶預期的一般參數。”