AI系統可以在數千臺服務器上優化分配工作負載從而降低成本

2019-08-26 17:01:03 編輯：來源：

導讀由麻省理工學院研究人員開發的一種新型系統自動學習如何在數千臺服務器上安排數據處理操作 - 這項任務傳統上保留用于不精確的，人工設計

由麻省理工學院研究人員開發的一種新型系統自動“學習”如何在數千臺服務器上安排數據處理操作 - 這項任務傳統上保留用于不精確的，人工設計的算法。這樣做可以幫助當今耗電量大的數據中心更有效地運行。

數據中心可以包含數萬臺服務器，這些服務器不斷地從開發人員和用戶運行數據處理任務。群集調度算法實時地在服務器之間分配傳入任務，以有效地利用所有可用的計算資源并快速完成工作。

然而，傳統上，人類根據一些基本指南(“政策”)和各種權衡來微調那些調度算法。例如，他們可以對算法進行編碼以快速完成某些工作，或者在工作之間平均分配資源。但是工作負載 - 意味著組合任務的組合 - 具有各種規模。因此，人們幾乎不可能針對特定工作負載優化其調度算法，因此，他們往往無法實現真正??的效率潛力。

麻省理工學院的研究人員將所有手動編碼卸載到機器上。在SIGCOMM上發表的一篇論文中，他們描述了一個系統，該系統利用“ 強化學習 ”(RL)，一種反復試驗的機器學習技術，來定制特定服務器集群中特定工作負載的調度決策。

為此，他們構建了可以訓練復雜工作負載的新型RL技術。在培訓中，系統嘗試了許多可能的方式來跨服務器分配傳入工作負載，最終在利用計算資源和快速處理速度方面找到最佳權衡。除了簡單的指令，例如“最小化工作完成時間”之外，不需要人為干預。

與最好的手寫調度算法相比，研究人員的系統可以在高流量時間內快速完成約20%到30%的工作，并且速度提高一倍。然而，大多數情況下，系統會學習如何有效地壓縮工作負載以減少浪費。結果表明，該系統可以使數據中心使用更少的資源以更高的速度處理相同的工作負載。

“如果你有辦法使用機器進行試驗和錯誤，他們可以嘗試不同的方式來安排工作，并自動找出哪種策略比其他策略更好，”博士洪子子博士說。電氣工程與計算機科學系(EECS)的學生。“這可以自動提高系統性能。利用率的任何微小改進，甚至1%，都可以為數據中心節省數百萬美元和大量能源。”

“制定調度決策并不是萬能的，”EECS教授兼計算機科學與人工智能實驗室研究員(CSAIL)的合著者Mohammad Alizadeh補充說。“在現有系統中，這些是您必須預先決定的硬編碼參數。我們的系統會學習根據數據中心和工作負載調整其調度策略特性。”

通常，數據處理作業進入數據中心，表示為“節點”和“邊緣”的圖形。每個節點代表一些需要完成的計算任務，其中節點越大，所需的計算能力越大。連接節點的邊緣將連接的任務鏈接在一起。調度算法基于各種策略將節點分配給服務器。

但傳統的RL系統并不習慣于處理這種動態圖形。這些系統使用軟件“代理”來做出決策并接收反饋信號作為獎勵。從本質上講，它試圖最大化其對任何給定動作的獎勵，以在特定環境中學習理想行為。例如，他們可以幫助機器人學習執行任務，例如通過與環境交互來拾取對象，但這涉及通過更容易設置的像素網格處理視頻或圖像。

為了構建他們的基于RL的調度程序，稱為Decima，研究人員必須開發一個模型，可以處理圖形結構的作業，并擴展到大量的作業和服務器。他們的系統的“代理”是一種利用圖形神經網絡的調度算法，通常用于處理圖形結構數據。為了提出適合于調度的圖神經網絡，他們實現了一個自定義組件，該組件跨圖中的路徑聚合信息 - 例如快速估計完成圖的給定部分所需的計算量。這對于作業調度很重要，因為“子”(較低)節點在其“父”(上)節點完成之前無法開始執行，

為了訓練他們的RL系統，研究人員模擬了許多不同的圖形序列，模擬了進入數據中心的工作量。然后，代理會決定如何將每個節點沿圖表分配給每個服務器。對于每個決策，組件根據其在特定任務中的表現來計算獎勵 - 例如最小化處理單個作業所花費的平均時間。代理人繼續前進，改進決策，直到獲得最高獎勵。

基線工作量

然而，一個問題是，某些工作負載序列比其他工作負載序列更難處理，因為它們具有更大的任務或更復雜的結構。這些將總是需要更長的時間來處理 - 因此，獎勵信號總是低于簡單信號。但這并不一定意味著系統表現不佳：它可以在充滿挑戰的工作負載上度過美好時光，但仍然比更輕松的工作負載慢。難度的變化使得模型難以決定哪些行為是好的。

為了解決這個問題，研究人員采用了一種稱為“基線”的技術。該技術采用具有大量變量的場景的平均值，并使用這些平均值作為比較未來結果的基線。在訓練期間，他們計算了每個輸入序列的基線。然后，他們讓調度程序多次訓練每個工作負載序列。接下來，系統采用針對相同輸入工作負載的所有決策的平均性能。該平均值是模型可以比較其未來決策的基線，以確定其決策是好還是壞。他們將這種新技術稱為“依賴于輸入的基線”。

研究人員表示，這種創新適用于許多不同的計算機系統。“這是在有影響環境的輸入過程的環境中進行強化學習的一般方法，并且您希望每個培訓活動都考慮一個輸入過程的樣本，”他說。“幾乎所有計算機系統都處理不斷變化的環境。”

威斯康星大學麥迪遜分校的計算機科學教授Aditya Akella，他的團隊設計了幾個高性能的調度員，發現MIT系統可以幫助進一步改善他們自己的政策。“Decima可以更進一步，找到[ 調度 ]優化的機會，這些優化過于繁重，無法通過手動設計/調整過程實現，”Akella說。“我們設計的調度程序在應用程序性能和集群效率方面比生產中使用的技術有了顯著的改進，但是我們可能實現的理想改進仍然存在差距.Decima表明基于RL的方法可以發現[策略]這有助于進一步縮小差距。我們的技術改進了大約30%，

現在，他們的模型經過模擬訓練，試圖實時重建傳入的在線流量。接下來，研究人員希望在實時流量上訓練模型，這可能會使服務器崩潰。因此，他們目前正在開發一種“安全網”，當它即將導致系統崩潰時，它將停止系統。“我們認為它是訓練輪，”Alizadeh說。“我們希望這個系統能夠不斷訓練，但它有一定的訓練輪，如果它太過分，我們可以確保它不會倒下。”

標簽： AI系統