近日,人工智能領(lǐng)域傳來(lái)一則重磅消息:由智譜與華為攜手打造的開源圖像生成模型GLM-Image,在發(fā)布后不到24小時(shí)內(nèi)便登頂全球知名AI開源社區(qū)Hugging Face的榜單首位。這一突破標(biāo)志著國(guó)產(chǎn)AI模型在國(guó)際競(jìng)爭(zhēng)中首次實(shí)現(xiàn)端到端自主研發(fā)能力的領(lǐng)先,其訓(xùn)練全程完全依托國(guó)產(chǎn)芯片完成,為行業(yè)樹立了新的標(biāo)桿。
據(jù)技術(shù)團(tuán)隊(duì)介紹,GLM-Image的研發(fā)突破了傳統(tǒng)技術(shù)路徑的限制。該模型基于昇騰Atlas 800T A2設(shè)備與昇思MindSpore AI框架構(gòu)建,從數(shù)據(jù)預(yù)處理到模型訓(xùn)練的全流程均在國(guó)產(chǎn)硬件環(huán)境中完成。作為首個(gè)在國(guó)產(chǎn)芯片上實(shí)現(xiàn)全程訓(xùn)練的SOTA多模態(tài)模型,其成功驗(yàn)證了國(guó)產(chǎn)AI生態(tài)的完整性與成熟度。
在架構(gòu)設(shè)計(jì)層面,研發(fā)團(tuán)隊(duì)摒棄了開源社區(qū)常用的LDM方案,創(chuàng)新性地采用自回歸與擴(kuò)散解碼器相結(jié)合的混合架構(gòu)。這種設(shè)計(jì)使模型既能精準(zhǔn)理解全局指令,又能細(xì)致刻畫局部細(xì)節(jié),尤其在處理復(fù)雜視覺(jué)文本生成任務(wù)時(shí)表現(xiàn)出色。測(cè)試數(shù)據(jù)顯示,GLM-Image在CVTG-2K復(fù)雜視覺(jué)文本生成榜單和LongText-Bench長(zhǎng)文本渲染榜單中均取得開源模型第一的成績(jī)。
該模型的核心優(yōu)勢(shì)體現(xiàn)在對(duì)中文場(chǎng)景的深度優(yōu)化。通過(guò)專項(xiàng)訓(xùn)練,GLM-Image能夠準(zhǔn)確理解中文指令并生成高質(zhì)量圖像,在漢字生成任務(wù)中展現(xiàn)出顯著優(yōu)勢(shì)。其應(yīng)用場(chǎng)景覆蓋海報(bào)設(shè)計(jì)、PPT制作、科普?qǐng)D生成等知識(shí)密集型領(lǐng)域,可有效提升內(nèi)容創(chuàng)作效率。技術(shù)團(tuán)隊(duì)透露,某科普平臺(tái)使用該模型后,圖文內(nèi)容生產(chǎn)周期縮短了70%。
商業(yè)化落地方面,GLM-Image通過(guò)API調(diào)用模式將單張圖片生成成本降至0.1元。這一價(jià)格優(yōu)勢(shì)使其迅速獲得市場(chǎng)關(guān)注,多家設(shè)計(jì)平臺(tái)與教育機(jī)構(gòu)已啟動(dòng)合作測(cè)試。行業(yè)分析師指出,低成本與高性能的結(jié)合將推動(dòng)AI圖像生成技術(shù)從專業(yè)領(lǐng)域向大眾市場(chǎng)普及,可能引發(fā)內(nèi)容創(chuàng)作行業(yè)的變革。
技術(shù)文檔顯示,GLM-Image的訓(xùn)練數(shù)據(jù)集包含超過(guò)2億張中英文圖文對(duì),通過(guò)動(dòng)態(tài)權(quán)重調(diào)整機(jī)制實(shí)現(xiàn)了多語(yǔ)言場(chǎng)景的均衡優(yōu)化。模型參數(shù)規(guī)模達(dá)30億,在保持高效推理的同時(shí)支持實(shí)時(shí)編輯功能。目前,其開源代碼與預(yù)訓(xùn)練權(quán)重已在Hugging Face平臺(tái)開放下載,全球開發(fā)者均可參與二次開發(fā)。















