如何挑選AI伺服器電源供應器(PSU)?AI Server電源供應器解決方案
隨著AI技術的迅速發展和普及,伺服器市場在最近幾年裡已經產生了巨大變化。在OpenAI推出ChatGPT後,帶起了語言模型、智能聊天機器人的風潮,而Chatgpt背後的運算是依賴強大的「AI Server(伺服器)」,從而讓AI伺服器市場開始受到重視。
AI伺服器是甚麼?
AI伺服器是一種特殊設計和優化過的伺服器,這些伺服器可能會有一或多個高效能的GPU(圖形處理單元)或專用AI加速器,如Google的Tensor Processing Units (TPU) 或 NVIDIA的AI加速卡等。這些硬體設備為AI應用提供了大量的並行處理能力。軟體也是AI伺服器的重要組成部分。這可能包括專為AI和機器學習工作負載優化的作業系統,以及支援AI框架(如TensorFlow,PyTorch等)的程式庫和工具。
為甚麼需要AI伺服器?AI伺服器應用
我們需要AI伺服器因為人工智慧(AI)的計算需求非常高。AI伺服器提供了專門優化的硬體與軟體以存儲和處理龐大數據,從而支援AI模型的訓練與運行。AI伺服器的應用範圍非常廣泛,如圖像和語音識別,自然語言處理,預測分析,個性化推薦系統,自動駕駛(影像辨識),醫療領域(智能診斷等)。
AI伺服器和一般伺服器差異
目前最新規格的 AI 伺服器,每台至少消耗高達 6000 瓦功率,數據中心的能源消耗更佔全球能源使用量的 2% 左右,不過 AI 伺服器的能源利用效率比一般伺服器更高、更環保,在模型訓練、AI 推論 (Inference)、生成式 AI (GAI, Generative AI) 等應用上,處理速度更是大幅領先。訓練 AI 模型背後的大型語言模型包含了十億至千億參數,今年(2024)可望突破萬億參數等級,AI 伺服器將是推動技術進展的關鍵角色。
AI 伺服器與一般伺服器的主要差異在於設計和用途,一般伺服器主要用於儲存數據、執行程式、網絡服務等,而 AI 伺服器的目的是專門為了滿足人工智慧訓練與運用,相較於一般伺服器,AI 伺服器配備了更強大的 CPU、GPU 或其他客製化加速器等,讓 AI 伺服器擁有更強大的運算能力、大容量記憶體存儲空間、高網路頻寬與低延遲等特性,並且配備先進的熱管理技術,以及超高效率的電源模組,究竟 AI 伺服器(AI Server)與過去傳統使用的一般伺服器(General Server)還有哪些差別呢?我們進一步以表格進行比較。
The differences between AI servers and general servers can be summarized as follows |
|||
---|---|---|---|
|
General Server |
Entry-level Accelerated Server |
High-end Accelerated Server |
Workload |
Traditional Machine Learning |
Inference, Generative AI |
Inference, Training |
CPU |
1 or 2 CPUs |
1 CPU |
2 or more CPUs |
Accelerator |
CPU Built-In |
1-4 GPUs or other custom accelerators. |
4~10 GPUs or other custom accelerators. |
Memory |
Registered DDR Memory |
Registered DDR Memory+GDDR VRAM |
Registered DDR Memory+ HBM |
Network Transfer |
10 or 25 Gbps Ethernet |
100+ Gbps Ethernet |
400+ Gbps Ethernet NIC, Infiniband |
Power Module |
1300W~2000Wx2 |
2000Wx3 or 3000Wx4 |
3000Wx6 |
目前主流的 AI 伺服器為 NVIDIA 的 H100,採用 Hopper GPU 架構,為第九代資料中心 GPU,可以達到上一代 A100 效能的 30 倍,非常適合用來訓練大型語言模型,不過其能耗也極為驚人,根據國際能源署(IEA)估計,訓練一個 AI 模型使用的電量比 100 個家庭一年用電量還多,顯示未來資料中心將成為用電大戶。而 AI 伺服器重視系統可用性,若訓練時電力中斷,將導致成果流失,因此 AI 伺服器上,需配備多個高功率的電源模組並聯使用,確保伺服器運作不中斷。
FSP在高功率的電源模組開發已有多年經驗,產品線可支援傳統一般伺服器以至於最新的AI加速伺服器。也有多個品牌伺服器已經採用FSP產品。FSP電源模組採用全數位 (Full Digital) 設計,效率表現均達80PLUS鈦金級 (80PLUS Titanium)標準。當電源模組並聯使用時,可以支援高階AI伺服器,4~10個GPU同步運作,在滿足AI算力需求的同時,極大程度達到節能的效果。
未來,在AI加速運算的領域,我們將繼續看到更多創新迭代產品和新的架構發表,以支持人工智慧領域的持續發展。這些新技術將使計算變得更加高效,當然GPU功耗也必然持續增加,對電源模組的需求也會更多。FSP持續關注業界趨勢以及推出對應產品。如果您想要了解更多相關訊息,請至 https://www.fsp-group.com/tw/product/IPCPSU.html。
AI伺服器優勢與展望
隨著VR/AR、超高畫質、自駕技術等新興技術的需求,現階段全球已處於流量爆炸時代。根據IDC 統計: 全球雲端資料量 由2013年4.4ZB到2023年>50ZB, 逾十倍成長。在全球雲端資料量的飛快成長下,AI伺服器擅於同時處理大量資料且做為可以為企業儲存大量數據的基礎設備必然會成為各家兵家必爭之地,而AI伺服器內的電源供應器(PSU),又是影響AI伺服器性能的一大關鍵。這是因為AI伺服器內的硬體組件對電力的需求遠超過一般伺服器。因此,AI伺服器的電源供應器(PSU)相比於一般伺服器必須提供更多的電力來驅動這些高性能組件,同時還需要有足夠的冗餘電力來應對負載變化,避免數據塞車。
AI伺服器電源的重要性 (電源瓦數、穩定性、可靠性)
要知道如何挑選一個好的AI伺服器電源供應器(PSU),需要先了解它。AI伺服器要能穩定工作,背後需依靠一個強大且穩定的電源供應器PSU。PSU是一個關鍵的組件,負責將來自電網的交流電(AC)轉換為伺服器電子組件所需的直流電(DC)。對於高性能的AI伺服器,PSU需要提供足夠且穩定的電力來驅動CPU、GPU或AI加速器。此外,PSU的效率也很關鍵,它會直接影響整體的能源消耗和散熱需求,一個效率高的PSU可以最小化能源浪費,並減少散熱需求,從而使伺服器在高負載運行時仍能保持穩定。同時,高效的PSU也可以延長電源供應器的壽命,並降低由於電源問題導致的伺服器停機時間。
如何挑選AI伺服器電源供應器(PSU)?
在了解 AI 伺服器電源供應器(PSU)的重要性之後,現在我們來看如何選擇一個好的 PSU,我們可以從功率需求、效率等級、穩定性和可靠性、保護機制、連接器和尺寸、散熱和噪音等方面進行考慮。
功率需求
首先要確保其提供足夠的功率以供應所有硬體的需求,並防止任何可能導致系統故障的電力波動或中斷,一般來說最好選擇比需求高一些的瓦數,而不是剛好滿足功率需求,越複雜的運算系統,其電供瓦數更高,AI 伺服器的總電供瓦數可以來到 18kW。
效率等級
效率等級也是重要的考量點之一,效率低落的產品會導致浪費電力、熱能增加,可能耗損 PSU 的壽命,效率的評等系統主要為「80 Plus」能耗等級,代表電源供應器可以確保至少百分之 80 的效率。
80 PLUS Rating |
|
---|---|
Rating |
Typical Load Efficiency |
80 PLUS Bronze |
85% |
80 PLUS Silver |
89% |
80 PLUS Gold |
92% |
80 PLUS Platinum |
94% |
80 PLUS Titanium |
96% |
Source: Intel, compiled by the author |
穩定性和可靠性
一個良好的電源供應器必須具有優異的穩定性與可靠性,才能發揮關鍵的保護作用,優良的電源供應器製造商,會對 PSU 進行各種產品測試,包含輸出電壓調整、電源調整率、負載調整率等功能測試。
保護機制
要確保電源供應器具有良好的保護功能,如過載保護(OCP)、過熱保護(OTP)和過壓保護(OVP),這三種保護功能都是電源供應器(PSU)內建的安全特性,用於防止硬體損壞並確保系統穩定運行。其中,過載保護(OCP)為當輸出電流超限時,會關閉或限制電源供應器,以防止硬體損壞;過熱保護(OTP)指的是當內部溫度過高時,電源供應器會自動關閉,防止過熱;過壓保護(OVP)功能為當輸出電壓超限時,會關閉或限制電源供應器,以保護硬體不受高電壓毀損。
連接器和尺寸
電源供應器的線材設計主要有三種,分別是全模組設計、半模組設計以及非模組化設計,其差異在於線材可否拆裝,攸關於能否客製化。而連接介面的選擇也相當重要,用於正確連接主機板和其他硬件組件。另外 PSU 有許多不同的尺寸,選擇適當的尺寸可以確保機殼內有足夠的空間可以放置。
散熱和噪音
電源供應器是需要配置散熱風扇的硬體,因此風扇的散熱效率與噪音成為選擇 PSU 的考量點之一,電源供應器風扇的轉速快,散熱效率可能越好,但可能產生更大的噪音,因此消費者需在兩者之間進行衡量,或選擇電源供應器專業製造商生產的產品。
FSP AI伺服器電源供應解決方案
考慮到這些需求,FSP推出了一系列的AI伺服器電源供應器,其中最具代表性的是FSP3000-20FE。該產品具有極低的總諧波失真(iTHD)、0到55°C的工作溫度範圍、能適應海拔5,000米的設計,並能提供高達3000瓦的總電源容量。也就是說,即使處在惡劣極端的環境中,此產品依然能發揮作用,其適應力強的優勢一覽無遺。同時,此產品具有過電流保護(OCP)、過溫保護(OTP)和過壓保護(OVP)電路保護設計,以及輸出端短路保護和可重置電源關閉功能使其能夠與主板通信,安全性值得信賴。有了這些保護,再也不用擔心機器過熱或負載量過大而整台故障的問題。而針對AI伺服器,FSP也推出許多優秀的產品,如YSEC1600AM-2A00P10和YSEC2000AM-2A00P10,它們是AI伺服器專用電源供應器,具有80 PLUS® Platinum認證,最高效率達94%,並內置了PMBus 1.2技術。其優勢在於體積小巧,適合安裝在邊緣運算設備中。同時,由於其具有高效能的轉換效率和良好的散熱性能,因此在長時間運行下,也能確保電源供應器和邊緣運算設備的穩定運行。
未來,隨著邊緣運算和AI技術的進一步發展,這些硬體的需求將會越來越高。而這當中AI伺服器及其電源供應器將在未來扮演更重要的角色。選擇適合的電源供應器,不僅可以確保AI伺服器的順利運行,也為AI應用的持續發展和創新提供了保障。
- 低 iTHD
- 工作溫度 : 0 to 55°C
- 符合海拔5,000米適用設計
- OCP, OTP與OVP電路保護設計
- 輸出端短路保護
- 可重置電源關閉
- MTBF:250K小時 (75%輸出功率 ,40℃條件下)
- N+1 Redundant
- Support PMBus 1.2
- Hight Power Density 39.5 W/in3
- Application for IPC/Storage/Embedded server/Networking
- N+1 Redundant
- Support PMBus 1.2
- Hight Power Density 48.3 W/in3
- Application for IPC/Storage/Embedded server/Networking
相關文章
關於FSP
全漢為全球電源供應器專業製造領導大廠,FSP Group自1993年成立以來,本著「服務、專業、創新」的經營理念,持續做好全方位綠色能源解決方案供應商。