|
人為錯誤導致微軟Azure停機 遠程控制軟件,灰鴿子使用教程
1.jpg (39.95 KB, 下載次數: 646)
下載附件
2014-12-18 11:09 上傳
事后分析確定差距在部署過程。灰鴿子下載
錯誤執行部署工程師和差距的政策背后的全球停機微軟Azure云平臺在今年11月,根據詳細的認錯分析軟件巨頭。
停機看到客戶在多個地區無法連接到多個服務如Azure存儲、虛擬機,管理門戶網站,Active Directory和幾個小時。
最后一個根本原因分析(RCA)發表的Azure團隊成員杰森詹德說部署軟件的目的是改變以提高性能和減少處理器存儲表前端系統的利用率。
初始測試顯示,修復確實提高性能。但是當軟件變更部署到Azure的生產環境中,然而,在兩個領域。
一位不愿透露姓名的工程師認為,因為修復已經被“飛行”的一部分Azure生產基礎設施,使它在其他云平臺將低風險。
微軟的標準政策逐步部署生產環境的變化在小片,但是配置工具沒有充分執行。該公司將從現在開始執行這一政策本身在部署平臺。
第二個錯誤導致軟件變更被錯誤上啟用Azure Blob(二進制大對象)存儲前端時,只有經過測試對表存儲前端。
這暴露了一個故障,致使一些Blob存儲前端被困在無限循環,和停止響應請求,詹德寫道。
軟件變更已回滾之后,一些虛擬機在Azure需要手動恢復。這是由于磁盤掛載在啟動超時錯誤,在某些情況下引起的高負載的存儲服務在經濟復蘇階段。
其他Windows vm配置和存儲服務中斷發生時創建失敗的設置。此外,網絡編程錯誤導致一小部分VMs被訪問遠程管理通過公共互聯網協議地址。
公司已經部署補丁Azure防止虛擬機服務在未來以這種方式被打斷。
微軟還批評本身貧窮的通信中斷期間,說有延遲顯示和錯誤的信息在Azure服務衛生儀表板以及緩慢的反應公司的官方支持。
的溝通渠道,如推@Azure賬戶和Azure博客也不足,在interruptoion留給客戶沒有足夠的信息,詹德寫道。
公共云的核心是“你支付你得到什么!“挑戰與Azure(其他公共提供者)是沒有人可以說話如果有P1(停機)。所有的信息都是通過一個公共網站。甚至當地的微軟客戶服務團隊不能參與任何升級路徑。你需要確保100%工作量你放置在一個公共云提供商是正確的適合你的生意。是的我在一個私人工作/社區云提供商 |
|