記者鐘惠玲/台北即時報導 2025-08-12 18:25 ET

AI機器人示意圖。(AI生成)
輝達(Nvidia)強攻機器人放大絕,昨(12)日宣布推出最新涵蓋多達70億參數的推理視覺語言模型,主打「要讓機器人更像人類」,透過結合視覺感測應用,讓機器人基於既有知識與概念,學會「連續決策」,並在理解後採取行動,堪稱可打造機器人的推理大腦。
業界認為,這是輝達引領全球機器人發展跨出更重要的一步,也意味
AI算力應用再創顛峰,對致力於開發機器人的鴻海、廣達等大型集團是一大助力,同時也將加速AI伺服器建置需求。
輝達在昨天繪圖晶片業年度盛會「SIGGRAPH 2025」上,發表推理視覺語言模型「Cosmos Reason」。
輝達說明,「Cosmos Reason」是一款專為物理AI應用與機器人設計的70億參數「推理」視覺語言模型,具備超強大功能,並加入讓機器人具備與人一樣的「推理」能力,透過先驗知識、物理理解和常識,讓機器人與視覺AI代理像人類一樣分析情境、判斷下一步行動。
輝達表示,機器人規畫與推理技術如機器人視覺語言行動(VLA)模型的大腦,讓模型可深思熟慮、有條不紊地做出決策。「Cosmos Reason」可讓機器人解讀環境、在收到複雜的指令後,將指令分解為各種工作,即使在不熟悉的環境,也能運用常識執行這些工作。
輝達強調,「Cosmos Reason」是適用實體AI與機器人的全新開放式、可完全客製化。談到「Cosmos Reason」和既有視覺語言模型(VLM)的差異,輝達說明,自OpenAI推出CLIP模型以來,視覺語言模型(VLM)已廣泛應用於物件與模式識別等電腦視覺任務,但仍難以處理多步驟任務、含糊情境或全新經驗,「Cosmos Reason」可突破上述限制,這種能力對於需要連續決策的場景,如機器人任務規劃或
自駕車路徑預測,尤其關鍵。
「Cosmos Reason」可用於資料管理與標註、機器人規劃與推理,以及影片分析AI代理,讓系統在面對複雜指令時,能拆解成可執行的步驟並作出符合常識的判斷,即使處於陌生環境也能正確行動。
