視覺模型訓練成本一年下降80%,中國AI廠商“掀起”全球算力降價潮
2024年過去,AI又走過了狂奔的一年,大模型加速落地的熱切、應用場景創新的火熱和高投入、商業化緩慢帶來的“下牌桌”焦慮同時處在這個行業。
回過頭看來,過往行業共識的一些問題在2024年中被打上了問號,例如智能算力還是否短缺、中國AI企業的“算力焦慮”是必要的嗎?Scaling Law(規模法則)還值得信仰嗎?
辭舊迎新之際,中國AI行業的“拐點”時刻更受關注。不再統一的答案背后,值得關注的是,對中國AI企業來說,一些好的變化正在發生,也有更多挑戰等待2025年去回答。
訓練成本下降
2024年12月27日,海外社交媒體平臺X被來自中國的大模型DeepSeek-V3刷屏,這一模型能力對標頭部模型,但訓練的預算卻非常低,“2048個GPU、2個月、近600萬美元”,相比之下,GPT-4o等模型的訓練成本約為1億美元,至少在萬個GPU量級的計算集群上訓練。
這是一項展現了極致性價比的訓練成本數據。在已開源的論文中,幻方量化旗下AI公司深度求索(DeepSeek)強調了DeepSeek-V3訓練成本較低――通過對算法、框架和硬件的優化協同設計,在預訓練階段,模型每訓練1萬億token僅需要18萬個GPU小時,即在團隊配備2048個H800 GPU的集群上只需3.7天,也就是說,團隊的預訓練在不到2個月的時間完成。加上后訓練,DeepSeek-V3完整訓練消耗了278.8萬個GPU小時。假設H800 GPU的租用價格為每塊GPU 2美元/小時,DeepSeek-V3的全部正式訓練成本總計僅為557.6萬美元。
DeepSeek的成功并非個例,值得關注的是,在英偉達顯卡等高端算力資源受限的情況下,2024年,許多中國AI企業正在找到降低訓練成本的方法。
極佳科技聯合創始人兼首席科學家朱政向第一財經記者透露,過去一年,極佳科技訓練大模型的成本也在大規模下降。朱政介紹,之前極佳科技訓練一個視覺模型大概需要500萬美金,基本上是一個語言模型的1/10,但現在他們已經把這個成本降到了100萬美金以下。
從訓練成本的降低來看,朱政表示“方法有很多”,一方面,大模型公司正在關注與云廠商加強合作,通過做一些訓練加速、通訊優化、設置優化等降低成本。同時,行業對數據優化也更為重視,之前行業用Scaling Law只是在對數據,但對完數據后并沒有做非常多相應的優化,事實上數據優化帶來的訓練效率提升空間也很大。
中國AI企業的“搶卡”焦慮也因此有所緩解,朱政表示,例如英偉達最新發布的顯卡還是要買,得買最新的架構的顯卡,但隨著訓練效率的提升,需要的規模會下降。他同時表示,來到100萬美金以下,未來進一步下探大模型的訓練成本將是一件更困難的事情,可能不是一家企業能搞定的事情,可能需要訓練框架的支持、編程語言的支持包括顯卡算式的支持。
從全行業的角度來看,螞蟻集團科技戰略與執行部副總經理彭晉對第一財經記者表示,在采購先進算力有些困難的情況下,國內也在推進國產算力的替代,各大公司都在不斷采購一些國產算力,從螞蟻的實踐來看,國產算力已經可以支撐很大規模,比如在千億參數甚至以上規模的模型訓練中國產算力是沒有問題的。至于到下一步,例如說要建十萬卡規模的集群,國產算力能否支撐有待進一步檢驗。
“遠慮”仍存,但走過2024年,中國企業的“算力焦慮”正在回歸理性。
未來趨勢
2025年,中國AI行業會有哪些變化?
北京智源人工智能研究院在《2025十大AI技術趨勢》報告中指出,從基礎設施到產品應用,Scaling Law、基礎模型、具身智能、超級應用、AI安全等AI發展的關鍵方向都可能在2025年迎來新的變化。
報告認為,AI4S驅動科學研究范式變革;具身智能領域具身大小腦和本體的協同進化;統一的多模態大模型實現更高效AI;Scaling Law擴展向RL + LLMs,模型泛化從預訓練向后訓練、推理遷移;世界模型加速發布,有望成為多模態大模型的下一階段;合成數據成為大模型迭代與應用落地的重要催化劑;推理優化迭代加速,成為AI Native應用落地的必要條件;Agentic AI成為產品落地的重要模式;AI應用將迎來Super APP以及AI安全治理體系的持續完善將成為2025年AI技術發展的十大趨勢。
不少中國自研的技術和產品讓業內看到了這些趨勢的到來。2024年9月,螞蟻發布了支小寶、螞小財等系列AI管家產品,探索更多服務類智能體形態,2024年10月,智源研究院發布了完全自研的基于自回歸技術的原生多模態世界模型Emu3,實現了視頻、圖像、文本三種模態的統一理解和生成,2024年年底,豆包月活躍用戶數達到了7116萬,成為國內第一、全球第二的AI原生應用。
智能研究院行業研究組負責人倪賢豪提到,走過2024年全年來看,與2023年相比,國內AI整體的應用熱度已明顯升溫,相比2023年第一季度,他所在的團隊調研到,2024年第四季度,整個基礎模型的垂直產業鏈以及其他賽道AI應用的成熟度已有了明顯提升,例如AI在3D內容、AI硬件等場景的應用以及醫療文獻處理等未來場景的探索中,都有了明顯拓展。
從國內大模型公開中標項目的類型分布來看,2024年10月,大模型應用類項目數量首次超過了算力類項目,應用類大模型招標項目占比已達到56%,國產大模型在垂直行業實現了加速落地,或是在諸多中大型企業扮演中臺性質的基礎設施。
AI應用領域的Super APP能否在2025年出現同樣受到業內關注。從C端的用戶規模、交互頻次、停留時長等維度來看,目前,國產AI應用尚未出現爆發式增長,倪賢豪表示,隨著大模型推理成本的下降,包括開發工具的適配、框架的創新以及應用安全、決策的可解釋性、魯棒性等問題的解決,未來,推動Agent解決復雜問題的能力提升將變得更有可能也更關鍵。他認為,從用戶視角切入,以需求反推技術或許能撬動AI應用的用戶存量和增量市場,Super APP在2025年的誕生值得期待。
“當前,我們處在人工智能發展的新拐點,大模型的能力涌現加速通用人工智能時代的到來,原生統一多模態、具身智能、AI for Science,將進一步深化人工智能對世界的感知、理解與推理,連接數字世界與物理世界,驅動科學研究創新突破。”智源研究院院長王仲遠表示。
本文鏈接:http://www.020gz.com.cn/news-4-443-0.html視覺模型訓練成本一年下降80%,中國AI廠商“掀起”全球算力降價潮
聲明:本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。
下一篇:失去始祖鳥代理權 三夫戶外自救
點擊右上角微信好友
朋友圈
點擊瀏覽器下方“”分享微信好友Safari瀏覽器請點擊“
”按鈕
點擊右上角QQ
點擊瀏覽器下方“”分享QQ好友Safari瀏覽器請點擊“
”按鈕