chen2929 發達集團總裁
來源:財經刊物   發佈於 2025-04-10 00:45

輝達突然開源新模型 性能直逼 DeepSeek-R1

鉅亨網新聞中心  2025-04-09 17:00

輝達突然開源新模型 性能直逼 DeepSeek-R1。(圖:shutterstock)


輝達 (NVDA-US) 今 (8) 日突然開源了一款名為 Llama-3.1-Nemotron-Ultra-253B-v1 的新模型,性能逼近擁有 6710 億參數的 DeepSeek R1,但只用了不到一半的參數量。

該模型基於 mexta 早期的 Llama-3.1-405B-Instruct 模型開發,擁有 2530 億個參數,在第三方實證基準測試中表現出色。結果測試顯示,GPQA(76 vs. 71.5)、IFEval 指令遵循(89.5 vs. 88.8)和 LiveCodeBench 編碼任務(66.3 vs. 65.9)。

此外,Llama-3.1-Nemotron-Ultra-253B 推理礦石也比 DeepSeek R1 671B 高 4 倍。不過,在 MATH500 和 Arena Hard 基準測試中,DeepSeek R1 仍略佔優勢。

這個模型之所以能達到如此強的推理性能,是因為在模型精度和效率之間取得了良好平衡,讓效率(吞吐量)直接轉化為成本節省。

透過採用一種新穎的神經架構搜尋(NAS)方法,研究者大幅減少了模型的記憶體佔用,從而支援更大的工作負載,並減少了在資料中心環境中運行模型所需的 GPU 數量。

技術特點如下:
  • 採用神經架構搜尋 (NAS) 最佳化架構
  • 引入跳躍注意力層、融合前饋網路 (FFN) 和可變 FFN 壓縮率
  • 降低記憶體佔用和運算需求,保持輸出品質
  • 可在單一 8x H100 GPU 模式高效能部署
綜合來看,Llama-3.1-Nemotron-Ultra-253B 的設計目標是支援進階推理、指令遵循以及 AI 助理工作流程。

Llama-3.1-Nemotron-Ultra-253B 可用於聊天機器人開發、AI Agent 工作流程、檢索增強生成(RAG)和程式碼生成等情境。根據輝偉達開放模式授權及 Llama 3.1 社群授權協議,此模式已獲準用於商業用途。

評論 請先 登錄註冊