新聞專員 發達公司課長
來源:財經刊物   發佈於 2024-12-24 21:08

AMD AI晶片挨批軟體有缺陷、開箱體驗遠不如輝達

2024-12-24 14:23:49 記者 郭妍希 報導
晶片顧問機構Semianalysis著手進行5個月的調查後發現,超微(AMD)最新「MI300X」AI晶片因為重大軟體缺陷、效能不如預期,難以撼動輝達(Nvidia Corp.)的市場主導地位。
The Decoder 23日報導,Semianalysis發表研究報告指出,AMD的軟體有缺陷,若未大量除錯,會讓訓練AI模型變成幾乎不可能的任務。AMD如今在品質、使用易度方面陷入掙扎,而輝達卻持續推出全新功能、工具庫並升級效能,遙遙保持領先。

Semianalysis執行了大量測試,當中包括GEMM標竿、單節點訓練(single-node training)等,最終發現AMD尚無法突破「CUDA護城河」,此乃輝達強大的軟體優勢。

MI300X規格看來令人印象深刻,提供1,307 TeraFLOPS的FP16精度算力、192 GB HBM3記憶體。相較之下,輝達「H100」提供989 TeraFLOPS算力及80 GB記憶體,而較新的「H200」則配備141 GB記憶體。AMD系統的總持有成本也較低,主要是拜定價較便宜、使用更平價的乙太網絡之賜。

然而實務上,這些優勢卻幾乎起不了作用。SemiAnalysis指出,旗下分析團隊必須跟AMD工程師一同修正無數軟體缺陷,才能達到堪用的標竿測試結果。相反地,輝達系統一開箱就能順暢運作。

報告稱,「AMD產品開箱後非常難以操作,需要相當大的耐心及努力才能達到可用的狀態。」

SemiAnalysis並揭露,AMD最大GPU雲端客戶Tensorwave,必須免費提供GPU使用時間給AMD團隊來解決軟體問題,這實在瘋狂,畢竟Tensorwave已經支付了這些GPU的費用。

SemiAnalysis建議AMD執行長蘇姿丰(Lisa Su、見圖)重金投入軟體開發與測試,尤其應配置數千顆MI300X晶片來做自動化測試——跟進輝達的做法。另外,也建議蘇姿丰簡化複雜的環境變數,實施更好的預設設定。他們寫道:「請讓產品開箱便可用!」

Semianalysis首席分析師Dylan Patel 23日透過社交平台X指出,他跟蘇姿丰開了1.5小時的會議,逐一檢視問題。蘇姿丰坦承AMD軟體方面的不足之處,並認真看待該機構的建議,還向AMD團隊及Semianalysis提出許多問題。很多變革正在進行中!很高興看到即將到來的改進。

蘇姿丰則回應貼文表示,感謝Patel具有建設性的對話。回饋是個禮物、即便它很嚴苛。AMD已大量投入客戶和工作量優化作業,但為支援廣泛的生態系統,尚有許多努力空間。非常感謝大家的回饋。AMD致力打造世界一流的開放軟體,2025年有很多計畫。祝大家佳節愉快!
AMD一年前發表專為AI、高效能運算(HPC)打造的加速器「Instinct MI300X」時,亞馬遜(Amazon.com)旗下雲端運算提供商Amazon Web Services (AWS)曾表達在雲端佈署的意願。然而,根據亞馬遜內部人最近說法,目前的市場需求不足以讓AWS部署這些晶片。

(圖片來源:AMD)

*編者按 :本文僅供參考之用,並不構成要約、招攬或邀請、誘使、任何不論種類或形式之申述或訂立任何建議及推薦,讀者務請運用個人獨立思考能力,自行作出投資決定,如因相關建議招致損失,概與《精實財經媒體》、編者及作者無涉。

評論 請先 登錄註冊