2025/08/14 15:50

DeepSeek新款模型已延後推出。(路透)
〔編譯魏國金/台北報導〕金融時報報導,中國人工智慧(AI)公司深度求索(DeepSeek)因未能使用華為晶片進行訓練,而延遲新模型的推出,此事突顯北京力推取代美國技術的限制。
報導說,3名知情者透露,DeepSeek今年1月推出其R1模型後,中國政府便鼓勵該公司採用華為昇騰處理器,而非輝達系統。
他們表示,但在使用昇騰晶片訓練R2的過程中持續遭遇技術問題,導致DeepSeek使用輝達晶片進行訓練,而華為晶片進行推理。相關問題便是R2模型從5月延後公佈的主因,此舉也導致被對手後來居上。
模型訓練涉及模型從大型資料集中學習,而推理涉及運用已完成訓練的模型,進行預測或產生回應的步驟。
DeepSeek的困境正顯示中國的晶片在關鍵工作上仍落後美國對手的現實,也突顯中國在技術自主上面臨的挑戰。
金融時報近日報導,北京要求中國科技公司說明下單採購輝達H20晶片的合理性,以鼓勵他們採用華為與寒武紀的替代晶片。但業界表示,與輝達產品相較,中國晶片存在穩定性問題,以及晶片間連接速度較慢、軟體品質較差。
知情者透露,華為派出一個工程師團隊前往DeepSeek辦公室,以協助該公司使用其AI晶片,開發R2模型,然而儘管現場有該團隊,DeepSeek仍無法在昇騰晶片上進行成功的模型訓練。DeepSeek目前仍與華為合作,以使R2模型能與昇騰相容,進行推理。
DeepSeek創辦人梁文鋒在公司內部對R2的進展表示不滿,也一直投入更多時間建構先進模型,以維持公司在AI領域的領先地位。