日韩成人网站,黄片综合,亚州中日韩在线,欧洲无码性爱

您現(xiàn)在的位置:首頁 > 應用案例 > 應用分享 | 軟件定義數(shù)據(jù)中心L1層全光交換解決方案

應用案例 Solutions
應用分享 | 軟件定義數(shù)據(jù)中心L1層全光交換解決方案
點擊次數(shù):1669 更新時間:2023-05-15

人工智能計算領域服務商NVIDIA公司,在OFC 2023會議上發(fā)表的“Software-defined, programmable L1 dataplane: demonstration of fabric hardware resilience using optical switches”論文中,介紹了其最新的工作成果,提出了一種用于數(shù)據(jù)中心網(wǎng)絡的可編程光纖結(jié)構(gòu)設計,利用HUBER+SUHNER Polatis矩陣光開關將SDN擴展到L1。并在其HPC/ML測試臺上進行了實驗,利用可編程網(wǎng)絡自動從硬件或軟件故障中進行故障切換。

 

文章概述

軟件定義的控制平面徹底改變了網(wǎng)絡。應用程序可以按需求配置網(wǎng)絡,即使需要與其他負載共享網(wǎng)絡資源。如今,網(wǎng)絡基礎設施的深度編程可深入到第2層(L2),例如InfiniBand(IB)子網(wǎng)管理器(SM)是軟件定義控制器的最低級別。這意味著網(wǎng)絡的可編程性無法作用于物理基礎設施布線,通常來講物理基礎設施在部署后是固定的。我們通過引入一種工作流程,即將軟件定義的控制能力擴展到L1,來消除這一限制。軟件定義的物理層將網(wǎng)絡布線從剛性基礎設施轉(zhuǎn)換為可編程資源,允許在網(wǎng)絡運行時進行物理拓撲更改。這為各種過去不可行的、新的網(wǎng)絡操作奠定了基礎,但同時帶來了新的影響:需要在網(wǎng)絡堆棧的更高級別處理。

基于光開關的實現(xiàn)的在網(wǎng)絡運行時的L1可編程性使得幾個新應用得以實現(xiàn)。第一個也是我們當前評估的重點,是針對網(wǎng)絡結(jié)構(gòu)(交換機、收發(fā)器和/或服務器)中的硬件故障和軟件故障提供彈性。失效對計算集群的利用率和效率的影響在整個行業(yè)都很明顯,這使創(chuàng)建彈性網(wǎng)絡變得非常重要。業(yè)務關鍵型應用程序需要保證持續(xù)可用性:停機意味著收入損失、客戶流失以及公司聲譽受損。L1可編程性的另一個潛在應用是根據(jù)應用程序需求修改網(wǎng)絡的物理拓撲,例如在胖樹的葉交換機之間創(chuàng)建環(huán)面/網(wǎng)格,以減少對延遲敏感的應用程序的通信時間?;蛟诔~訂閱的網(wǎng)絡中,根據(jù)需要將帶寬分配給網(wǎng)絡的各個部分,以根據(jù)物理拓撲提供不同的QoS。L1可編程性還可以在物理層中應用隔離,斷開多個租戶之間的網(wǎng)元,或隔離已被識別為潛在威脅的主機。我們的PoC基于IB架構(gòu),但同樣適用于NVLINK和以太網(wǎng)。

由于無法更改物理連接,當前的故障恢復解決方案側(cè)重于通過調(diào)整轉(zhuǎn)發(fā)配置來盡可能排除故障路徑。例如在IB網(wǎng)絡中的軟件特性有SHIELD和利用替代路徑的自適應路由。這些協(xié)議有兩個顯著的局限性。首先,它們只能在存在替代路徑的情況下使用;葉交換機上的故障(將斷開服務器與網(wǎng)絡的連接)或服務器上的故障無法通過這種方式緩解。其次,他們無法恢復集群的全部性能。另一種增強彈性的方法是添加冗余硬件來備份整個或部分網(wǎng)絡(例如,Dual ToR)。這種方法的缺點是需要更多的硬件,資源未得到充分利用。

 

彈性系統(tǒng)的可重構(gòu)結(jié)構(gòu)

我們利用光開關來實現(xiàn)L1可編程數(shù)據(jù)平面。光開關可對光路進行重定位,光路的I/O排列由電接口定義控制。如圖1a所示,通過在給定網(wǎng)絡拓撲的交換層之間引入光開關,實現(xiàn)了點對點光纖連接排列的可編程更改。圖1a顯示了針對小規(guī)模二級(葉脊架構(gòu))胖樹中的彈性應用的網(wǎng)絡架構(gòu)。在網(wǎng)絡中增加了冗余交換機(RS–冗余脊交換機和RL–冗余葉交換機)和冗余服務器。冗余設備與主網(wǎng)絡元件一并連接到光開關的可用端口。當檢測到設備故障時,對應的光開關會執(zhí)行修正配置:斷開故障設備與網(wǎng)絡的連接,用冗余設備替換。該設計允許可編程的彈性程度(主設備和冗余設備的比率)根據(jù)系統(tǒng)要求而變化。此外,該體系結(jié)構(gòu)可以隔離安全威脅,最大限度地減少維護期間的停機時間,同時作為通用的可編程數(shù)據(jù)平面。

我們設計并實現(xiàn)了相應的控制平面軟件,可以看作L1數(shù)據(jù)平面控制的SDN堆棧擴展。設計了圖形化后端來反映物理網(wǎng)絡拓撲結(jié)構(gòu)(包括光交換部件),為控制器邏輯提供所需的系統(tǒng)建模支持。隨后,引入了一組概念和算法,允許SDN L1控制器識別給定部署的不同拓撲可能性,執(zhí)行物理拓撲變化,并向L2層控制器發(fā)出信號以適應物理網(wǎng)絡的變化。圖1(b和c)顯示了系統(tǒng)控制回路,紫色的SDN L1(光纖結(jié)構(gòu)管理器-OFM)是執(zhí)行物理更改并向L2(在IB的情況下是子網(wǎng)管理器)發(fā)送通知的軟件。同樣地,可以擴展L2來請求物理拓撲更改。故障檢測機制(超出當前工作范圍)通知OFM需要更換設備。OFM計算并強制執(zhí)行相應的光學連接,例如,在Leaf交換機故障的情況下,圖1a中的RL1將其替換。隨后,網(wǎng)絡控制器將RL1囊括在網(wǎng)絡中。該工作流程能夠在幾秒鐘內(nèi)將網(wǎng)絡容量恢復到100%。此外,如本文下幾節(jié)所討論,我們正在進行防止設備故障導致的應用程序崩潰的工作。

圖片

圖1:  a)彈性體系結(jié)構(gòu)概述 b)控制回路流程圖和 c)軟件概述

試驗臺說明

為了驗證網(wǎng)絡彈性,所有小規(guī)模POD連接中都配置了一個光開關,并在葉層和脊層各添加了一個冗余的IB交換機,以替換失效的葉交換機或脊交換機。測試臺由4臺DGX服務器和14臺IB交換機組成:其中8臺作為葉交換機,4臺作為脊交換機。兩個額外的IB交換機作為冗余設備:一個冗余葉交換機(RL,如圖1a所示)和一個冗余脊交換機(RS)。我們使用現(xiàn)成的L1光開關【POLATIS】。光鏈路則選擇了200 Gb/s CWDM可插拔光模塊,其顯著減少了所需的光開關端口,且有足夠的鏈路預算來支持光開關的損耗。DGX具有8個IB接口(8個通道),每個通道連接到不同的Leaf交換機。葉交換機與脊交換機完全連接,即沒有超額負載。所有連接都接入光開關,以進行各種實驗;當前評估重點關注IB交換機的更換。

實驗程序和結(jié)果

我們進行了交換機失效模擬,觸發(fā)SDN L1控制器搜索物理拓撲以減輕故障。冗余交換機接管了物理拓撲中故障交換機的角色,IB子網(wǎng)管理器接收到拓撲更改通知,該通知指示其修復L2網(wǎng)絡配置。通過適當?shù)靥幚鞩B傳輸超時,運行中的應用程序可以在網(wǎng)絡更改后恢復運行。

圖2顯示了我們對UCX和NCCL集體通信庫的測試結(jié)果。在該測試場景中,進行了IB交換機故障模擬。圖表顯示了實驗中涉及的一個DGX的IB界面上的帶寬(y軸)隨時間(x軸)的變化,對于all-to-all和all-reduce的微基準測試。基準測試在4個DGX之間和接口之間產(chǎn)生相同的流量。我們運行微基準測試,模擬故障,并監(jiān)控隨著時間的推移應用程序的性能和狀態(tài)。在Spine故障期間,由于活動鏈路的減少,系統(tǒng)的容量會降低,但應用程序有可替代路徑可用,不會崩潰。啟用彈性方案后,可以在幾秒鐘內(nèi)恢復群集的全部性能(Spine故障切換)。在Leaf層發(fā)生故障(Leaf failover)的情況下,應用程序崩潰,受影響的IB接口將保持離線狀態(tài),直到問題解決。啟用彈性方案后,應用程序在中斷幾秒鐘(目前約為7秒,但有待優(yōu)化)仍能繼續(xù)運行,系統(tǒng)的全部容量也能夠恢復。

圖片

圖2:在啟用彈性解決方案的情況下,演示微基準的BW恢復:a)在左側(cè)OSU上,全部到全部,b)在右側(cè)NCCL上,全部減少。顯示所有鏈路隨時間變化的帶寬:黃色部分顯示Tx帶寬,而紫色部分顯示Rx帶寬。一個DGX的所有鏈路的圖都重疊。


?結(jié)論

我們提出了一個系統(tǒng)設計和工作流程,結(jié)合起來實現(xiàn)了L1的可編程性。構(gòu)建了一個HPC/ML測試臺,并通過模擬交換機故障場景來評估彈性應用。通過添加光交換網(wǎng)絡和冗余設備,可在幾秒鐘內(nèi)自動恢復全部容量;此外,可以避免在葉級故障期間發(fā)生的應用程序崩潰。在未來的工作中,我們計劃提供成本分析和其他實驗的詳細結(jié)果,包括其他應用。

 

凌云光自2001年起即關注光交換技術、產(chǎn)品與應用的推廣,2015年正式與全球光交換廠家HUBER+SUHNER Polatis公司建立戰(zhàn)略合作伙伴關系,共同開創(chuàng)光交換應用的新時代。

HUBER+SUHNER Polatis 提供低損耗的全光交換解決方案,用于遠程光纖層配置、保護、監(jiān)控、重新配置和測試?;诳煽康?、經(jīng)過現(xiàn)場驗證的 DirectLight™ 光學矩陣開關技術,Polatis 動態(tài)光纖交叉連接可從8x8擴展到 576x576端口,并實現(xiàn)完全透明的連接,具有低損耗和無背反射,完全獨立于波長、功率或數(shù)據(jù)速率。動態(tài)光交叉連接是實現(xiàn)軟件定義的光網(wǎng)絡基礎設施自動化和虛擬化的關鍵要素。Polatis 支持RESTCONF和NETCONF,可輕松與 OpenDaylight 等流行的 SDN 控制器集成,還與前沿的傳輸 SDN 供應商合作,以支持新興標準并確保我們的客戶受益于可靠的 SDN 解決方案。