1月15日,“AI六小虎”之一的MiniMax發(fā)布并開源了新一代01系列模型,包含基礎(chǔ)語言大模型MiniMax-Text-01和視覺多模態(tài)大模型MiniMax-VL-01。該系列模型使用多項突破性創(chuàng)新,以大規(guī)模應(yīng)用線性注意力機制打破了Transformer傳統(tǒng)架構(gòu)的記憶瓶頸。
未來,AI智能體有望成為最重要的產(chǎn)品形態(tài),由于智能體處理的任務(wù)變得越來越復(fù)雜,涉及的數(shù)據(jù)量也越來越大,單個智能體的記憶以及多個智能體協(xié)作間的上下文都會變得越來越長。因此,長上下文能力與多模態(tài)處理能力的提升至關(guān)重要。
技術(shù)上,MiniMax-01系列模型首次將線性注意力機制擴展到商用模型的級別,受益于此次架構(gòu)創(chuàng)新,該系列模型在處理長輸入的時候具有非常高的效率,接近線性復(fù)雜度。從規(guī)模效應(yīng)、結(jié)構(gòu)設(shè)計、訓(xùn)練優(yōu)化和推理優(yōu)化等層面綜合考慮,MiniMax選擇模型參數(shù)量為4560億,其中每次激活459億,能夠高效處理400萬token的上下文,將有效替代Transformer傳統(tǒng)架構(gòu)并開啟超長文本輸入時代。相較于Gemini等一眾全球頂級模型,MiniMax-01隨著輸入長度變長,性能衰減最慢。
值得注意的是,MiniMax還開源了Text-01模型、VL-01模型的完整權(quán)重,以便于更多開發(fā)者做有價值、突破性的研究。MiniMax方面表示,“我們認為這有可能啟發(fā)更多長上下文的研究和應(yīng)用,從而更快促進Agent時代的到來,二是開源也能促使我們努力做更多創(chuàng)新,更高質(zhì)量地開展后續(xù)的模型研發(fā)工作。”
1月15日,“AI六小虎”之一的MiniMax發(fā)布并開源了新一代01系列模型,包含基礎(chǔ)語言大模型MiniMax-Text-01和視覺多模態(tài)大模型MiniMax-VL-01。該系列模型使用多項突破性創(chuàng)新,以大規(guī)模應(yīng)用線性注意力機制打破了Transformer傳統(tǒng)架構(gòu)的記憶瓶頸。
未來,AI智能體有望成為最重要的產(chǎn)品形態(tài),由于智能體處理的任務(wù)變得越來越復(fù)雜,涉及的數(shù)據(jù)量也越來越大,單個智能體的記憶以及多個智能體協(xié)作間的上下文都會變得越來越長。因此,長上下文能力與多模態(tài)處理能力的提升至關(guān)重要。
技術(shù)上,MiniMax-01系列模型首次將線性注意力機制擴展到商用模型的級別,受益于此次架構(gòu)創(chuàng)新,該系列模型在處理長輸入的時候具有非常高的效率,接近線性復(fù)雜度。從規(guī)模效應(yīng)、結(jié)構(gòu)設(shè)計、訓(xùn)練優(yōu)化和推理優(yōu)化等層面綜合考慮,MiniMax選擇模型參數(shù)量為4560億,其中每次激活459億,能夠高效處理400萬token的上下文,將有效替代Transformer傳統(tǒng)架構(gòu)并開啟超長文本輸入時代。相較于Gemini等一眾全球頂級模型,MiniMax-01隨著輸入長度變長,性能衰減最慢。
值得注意的是,MiniMax還開源了Text-01模型、VL-01模型的完整權(quán)重,以便于更多開發(fā)者做有價值、突破性的研究。MiniMax方面表示,“我們認為這有可能啟發(fā)更多長上下文的研究和應(yīng)用,從而更快促進Agent時代的到來,二是開源也能促使我們努力做更多創(chuàng)新,更高質(zhì)量地開展后續(xù)的模型研發(fā)工作。”
本文鏈接:http://www.020gz.com.cn/news-2-195-0.html解決傳統(tǒng)架構(gòu)記憶瓶頸 MiniMax發(fā)布新一代模型
聲明:本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻,不代表本站觀點,本站不承擔(dān)任何法律責(zé)任。天上不會到餡餅,請大家謹(jǐn)防詐騙!若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。
點擊右上角微信好友
朋友圈
點擊瀏覽器下方“”分享微信好友Safari瀏覽器請點擊“
”按鈕
點擊右上角QQ
點擊瀏覽器下方“”分享QQ好友Safari瀏覽器請點擊“
”按鈕