鉅亨網編譯段智恆 綜合外電 2025-01-14 02:10
輝達AI晶片部署傳技術問題 丟失微軟等大客戶訂單(圖:REUTERS/TPG)
根據美媒《The Information》周一 (13 日) 援引知情人士消息報導,輝達最新一代人工智慧 (AI) 晶片 Blackwell 在部署至資料中心時遇到技術問題,主要包括伺服器機架過熱和晶片連接異常。
這些問題對資料中心的部署進程造成阻礙,輝達多家客戶包括微軟 (
MSFT-US)、亞馬遜 (
AMZN-US) 旗下 AWS、Google(
GOOGL-US)、mexta(
mexta-US) 最近砍掉部分 Blackwell GB200 機架的訂單。
因延遲交付,微軟原本計劃安裝大量 GB200 的鳳凰城資料中心現在已經裝滿 H200 晶片。知情人士透露,如果輝達無法解決這些問題,其性能可能會低於公司承諾的水準。
消息傳出後,輝達 (
NVDA-US) 周一早盤股價一度跌逾 4%,截至盤中跌幅收斂至 2.69%,每股暫報 132.26 美元。
Blackwell 晶片以其卓越性能和高能效廣受期待。與上一代產品 Hopper 相比,Blackwell 的能源效率提高四倍,吸引微軟、亞馬遜、Google 和 mexta 等科技巨擘。每家公司為此下達價值逾 100 億美元的訂單。
然而,將多個高功耗晶片整合到一個伺服器機架中比預期更具挑戰。每個 Blackwell 機架比家用冰箱還高,重量接近本田 Civic 汽車。由於計算密度極高,機架必須採用水冷系統,而非傳統的風冷系統。
對於多數 AI 開發商和資料中心營運商而言,部署這種特殊機架是全新且複雜的任務。此外,並非所有資料中心都能滿足這些機架的環境需求,客戶必須重新規劃部署方案。
由於過熱和連接問題,部分客戶削減了 Blackwell GB200 機架的訂單。儘管面臨挑戰,輝達仍有機會挽回局面。如果能夠及時解決這些技術問題,客戶或許會重新增加訂單。此外,儘管機架有問題,Blackwell 晶片的性能仍然優於上一代產品,輝達可能會為問題機架找到其他買家。
據知情人士透露,作為 OpenAI 的伺服器供應商,微軟原計劃在其鳳凰城的一個設施中安裝至少包含 5 萬枚 Blackwell 晶片的 GB200 機架。然而,由於 Blackwell 晶片從去年開始延遲交付,OpenAI 要求微軟儘早為其提供上一代輝達 H200 晶片。這項變更導致原本計劃安裝大量 GB200 的鳳凰城資料中心現在已經裝滿了 H200 晶片。
據悉,微軟現在計劃在今年 3 月在鳳凰城的設施中安裝包含 12000 枚 Blackwell 晶片的 GB200 機架,數量約為最初計畫的四分之一。另一位與微軟合作的人士表示,該公司也計劃在今年稍後 GB300 Blackwell 機架上市時進行採購。
輝達原本計劃在去年年底開始向客戶交付 Blackwell 機架,但由於晶片設計缺陷導致初期延遲了 3 個月。儘管輝達已經修復這個問題,但到 11 月時,客戶開始擔心機架的過熱問題。為此,輝達多次要求供應商更改設計。
然而,問題並未完全解決。據參與機架測試的 3 位人士透露,客戶也發現晶片之間資料傳輸 (即網路) 存在不一致的情況。這些問題可能導致 Blackwell 機架的設定時間比預期更長,如果輝達無法解決這些問題,其性能可能會低於公司承諾的水準。