日前,谷歌云(Google Cloud)服務宕機和性能下降的問題很快得到了修復,最終對客戶的影響也比較有限,但它還是提醒客戶:他們必須向供應商施加更多壓力,以提高云的可靠性。
3月11日,兩項谷歌云服務中斷:客戶用來管理他們的賬戶和項目的Google Cloud Console;以及Cloud Dataflow,這是一項用于處理批處理和流數(shù)據(jù)的服務。
谷歌云宕機解決了?用戶風險依然存在
根據(jù)谷歌的事后分析,由于其最新版本的谷歌云配額系統(tǒng)的代碼更改,Cloud Console在4小時內不可用。該bug導致系統(tǒng)退回到較低的速率限制,從而導致請求被拒絕。
而另一項造成系統(tǒng)滯后超過19小時的Cloud Dataflow問題在3月12日得到了全面解決。谷歌表示,事故原因仍在調查中。
與此同時,谷歌云存儲在3月12日經(jīng)歷了4小時的高錯誤率,以至影響了所有地區(qū)。根據(jù)事后報告,這個問題源于谷歌現(xiàn)場可靠性工程師(SREs)采取的行動。
3月11日,谷歌SREs發(fā)現(xiàn),連接到谷歌內部Blob存儲服務元數(shù)據(jù)的存儲使用量激增。為了減少這種使用,SREs進行了配置更改,導致系統(tǒng)中查找博客數(shù)據(jù)位置的部分過載,而增加的負載最終導致“連鎖故障”,谷歌說。
谷歌應用程序引擎的相關中斷導致Blob Store API和應用程序引擎部署出現(xiàn)了問題,這些問題也持續(xù)了大約四個小時。
報告稱,谷歌還計劃改進其隔離存儲服務區(qū)域的方式,以避免未來谷歌云該中斷問題在全球的爆發(fā)。
總體云可靠性仍然是一個大目標
所有云服務供應商都會經(jīng)歷宕機問題。然而,考慮到谷歌云在市場份額上遠遠落后于AWS和Azure,它特別需要解決這個問題。Constellation Research分析師Holger Mueller稱,這是買方市場,盡管谷歌的快速補救措施和透明度對客戶來說也很有價值,但客戶將尋求最可靠的選擇。
然而,一些客戶可能擔心,在詳細描述谷歌云存儲中斷的報告中,谷歌指的是在區(qū)域之間增加更多的隔離。
Mueller說:“區(qū)域隔離是云計算正常運行時間和恢復能力的關鍵,如果供應商不能做到這一點,這就會令人擔憂。”“他們要想知道谷歌是否成功地解決了這個問題,唯一的辦法就是等待它再次故障。”
IDC分析師Stephen Elliot表示,通過使用先進的管理、編排和負載平衡技術,計劃外的云服務中斷應該會隨著時間的推移而減少。他表示:“這是企業(yè)客戶預期的一般參數(shù)。”