AI Server架構概述 : CXL、DDR5、PCIe 6.0及Ethernet

因應AI/Data center/HPC等科技應用的發展趨勢,伺服器相關技術需跟緊腳步以符合其運算及高傳輸速率需求,且其發展目的都是導向低延遲、低功耗及高可靠性,例如近期被重視的CXL,就是被應用來克服伺服器處理器(CPU)互連記憶體可用的頻寬受限且利用率低落的困境。CXL協議是為了高速訊號傳輸的應用,建立跨不同晶片的記憶體互連與共享存取模組,解決當前伺服器的處理器與記憶體之間的效能瓶頸:
Credit: Boardcom

1.CXL:

目的在實現處理器(如CPU、GPU、FPGA等)和加速器之間的高速通訊,CXL 3.0/3.1提供了更高的頻寬及速度,能滿足近期快速發展的資料傳輸需求,CXL 3.0/3.1也多了新功能 : 記憶體池可使週邊晶片協作具一致性,不同的加速卡可以共享其系統,減少數據移動更能提高記憶體效率與性能;以及支持各種處理器和不同加速卡的多用途連接,成為擴展性極高的解決方案。目前CXL發展主要有兩大產品類型:「記憶體擴充模組」與「記憶體池」。目前先實現可發展的是: 「記憶體擴充模組」,CXL記憶體擴充模組的組成,包括CXL控制器晶片,加上DRAM記憶體晶片,模組裡的DRAM記憶體透過CXL控制器晶片,再藉由PCIe高速介面與伺服器CPU連結,CXL記憶體擴充模組是針對伺服器單機環境所應用。然而記憶體池(Memory pooling)更能讓記憶體容量利用到極大化,透過CXL交換器的互連技術,將其他多台伺服器記憶體組成共享記憶體池,突破傳統只能單向單機的限制,能符合未來的技術需求。

Credit: CXL Consortium

Credit: Samsung

2.DDR5:

DDR5記憶體的許多特性更加優化,更能應用在處理大型數據、複雜運算能力等的創新科技,包括更高速的運作效率、更低的功耗、增強的頻寬、密度更高、更大的內存容量,值得一提的是,DDR5 全引入了自有ECC除錯(Error-Correcting Code)的功能,更有效地檢測和修正錯誤,這能讓DDR5記憶體的系統擁有更高的可靠性跟穩定性。

舉例說明,日前提供客戶DDR5的模擬服務,下面幾張圖為Post-Sim模擬分析:

透過layout走線圖,模擬出return loss and insertion loss等相關參數,再搭配其訊號模型進行分析,

 

DDR5 Topology

經過將原有的設計調整與重新模擬後,眼圖結果得到改善,符合設計規範。 對於想了解更多模擬分析的相關資訊,請參考影片:
simulation analysis 101以及 SI/PI模擬分析

 

3.PCIe 6.0 :

PCIe擔任實體層角色,PCIe提供連接擴展卡和外部硬體設備的I/O介面,通過CXL,GPU/FPGA等加速器可以連接到系統, 並共享記憶體,CXL 3.0版規範正式發布,最重要特色是實體層改用基於PAM4編碼的PCIe 6.0,從而將傳輸頻寬提升一倍,速度加倍。

4.Ethernet :

不只CXL,伺服器所使用的網路介面卡(network interface controller,NIC)是通過PCIe介面去提供乙太網連線,利用100G/400G/800G/1.6T Ethernet遠端存取並共享記憶體。
隨著CXL、PCIe及DDR等技術不斷發展出最新一代,尤其符合現今資料中心所需的傳輸速度及效率,使得chipset、Memory 及high speed interfaces這些技術朝向更順暢運作的共生關係,才能在資料傳輸速度、記憶體利用率、儲存效率和整體系統性能方面取得飛躍般進展。

上述技術是資料中心/伺服器應用往更高速且低延遲高功率的關鍵元素,艾飛思科技能提供這些技術的專業測試服務,從初期設計階段的模擬,研發後期的驗證以及測試治具開發等…,針對既有設計或開發產品過程中,經驗豐富的艾飛思團隊也能提供專業建議,讓產品開發設計事半功倍。

參考資料: https://www.ithome.com.tw/tech/153366
參考資料: https://www.broadcom.com/products/pcie-switches-retimers/expressfabric

首圖來源:Google

 

登入

登入成功