xAI建造全球最大AI超級電腦Colossus 藉由NVIDIA的乙太網路技術加速

2024-10-30 | 楊又肇

NVIDIA宣布,xAI在美國田納西州孟菲斯市使用NVIDIA Spectrum-X乙太網路平台,打造搭載10萬個NVIDIA Hopper Tensor核心GPU構成的Colossus (以漫威漫畫中的「鋼人」為稱)超級電腦叢集。

Colossus是全球最大的人工智慧超級電腦,用於訓練xAI的Grok系列大型語言模型,並且為「X」Premium用戶提供聊天機器人功能。xAI正在將Colossus的規模擴大一倍,總計將搭載20萬個NVIDIA Hopper GPU。

xAI與NVIDIA在短短122天內就建置出相關配套設施與最先進的超級電腦Colossus,此規模系統通常要用到幾個月到幾年的時間建置。而從安裝第一個機架到開始訓練人工智慧,前後僅歷時19天。

Colossus超級電腦在訓練規模極為龐大的Grok模型時,在所有三層網路結構中,系統都未因流量碰撞而出現應用程式延遲或封包遺失的情況,並且透過Spectrum-X壅塞控制功能,確保高達95%的資料輸送量。

相較之下,標準乙太網路可能會造成上千次的流量碰撞,多半只能提供60%的資料輸送量。

NVIDIA網路事業部資深副總裁Gilad Shainer表示:「AI正成爲關鍵業務,需要更高的效能、安全性、擴充能力和成本效益。設計NVIDIA Spectrum-X乙太網路平台的目的,就是要為xAI這一類創新公司能夠更快速處理、分析和執行AI工作負載,以加速開發、部署 AI 解決方案,並且更快推向市場。」

Elon Musk在X上表示:「Colossus是世界上最強大的訓練系統。xAI團隊、NVIDIA及我們的眾多合作夥伴與供應商表現非常出色。」

xAI的發言人表示:「xAI建造出世界上最大、最強大的超級電腦。NVIDIA的Hopper GPU加上Spectrum-X讓我們能夠突破大規模訓練AI模型的界限,並在乙太網路標準基礎上,建造一個擁有超級加速、並最佳化的AI工廠。」

資料來源: https://mashdigi.com/xai-builds-the-worlds-largest-ai-supercomputer-colossus-accelerated-by-nvidias-ethernet-technology/

Related posts