隨著人工智能技術(shù)逐步突破數(shù)字邊界,向物理世界深度滲透,人機(jī)交互正迎來一場范式革命。傳統(tǒng)以“一問一答”為核心的交互模式,在機(jī)器人、可穿戴設(shè)備等場景中逐漸暴露出響應(yīng)滯后、感知割裂等問題,成為制約AI具身化發(fā)展的關(guān)鍵障礙。面壁智能聯(lián)合創(chuàng)始人兼CEO李大海在接受媒體采訪時(shí)指出,新一代交互形態(tài)已現(xiàn)端倪,但其全面落地需依賴云端與端側(cè)模型能力的協(xié)同進(jìn)化。
清華大學(xué)計(jì)算機(jī)系教授、面壁智能首席科學(xué)家劉知遠(yuǎn)從認(rèn)知科學(xué)角度剖析了交互瓶頸的根源:人類通過聽覺、視覺、觸覺等多通道并行感知世界,而現(xiàn)有AI模型在多模態(tài)協(xié)同處理上仍存在顯著缺陷。例如,當(dāng)用戶與智能設(shè)備對話時(shí),設(shè)備往往無法同時(shí)處理視覺信息,導(dǎo)致交互自然度大幅下降。這種“單線程”處理模式限制了AI在復(fù)雜物理場景中的應(yīng)用潛力,而全模態(tài)模型通過統(tǒng)一架構(gòu)整合多感官數(shù)據(jù),被視為破解這一難題的核心路徑。
在產(chǎn)業(yè)實(shí)踐層面,端側(cè)模型與硬件的融合正面臨技術(shù)權(quán)衡。李大海以智能手機(jī)場景為例說明,盡管當(dāng)前頭部模型已能支持智能體完成部分復(fù)雜任務(wù),但純云端方案存在隱私風(fēng)險(xiǎn),端側(cè)部署則受限于算力與功耗。他透露,豆包手機(jī)雖實(shí)現(xiàn)了智能體模擬人類操作的功能突破,但真正邁向“自然交互”仍需解決輸入方式的變革——未來手機(jī)若能直接感知環(huán)境聲音與圖像,將大幅提升上下文同步能力,但這同時(shí)對硬件能效比提出更高要求。
相較于消費(fèi)電子,汽車與機(jī)器人領(lǐng)域因資源條件更寬松,被視為全模態(tài)模型的優(yōu)先落地場景。李大海特別強(qiáng)調(diào),具身智能的當(dāng)前瓶頸不在于機(jī)械本體,而在于“大腦”的認(rèn)知能力。一旦模型在環(huán)境理解、任務(wù)規(guī)劃等方面取得突破,具身智能可能迎來指數(shù)級增長,類似ChatGPT引發(fā)的技術(shù)躍遷。劉知遠(yuǎn)則預(yù)測,未來兩三年內(nèi),模型的專業(yè)能力與交互效率將同步提升,為多智能體協(xié)作奠定基礎(chǔ)。
面對技術(shù)迭代壓力,面壁智能選擇以模型能力密度為核心戰(zhàn)略。公司提出的“密度法則”指出,大模型的能力保鮮期僅約100天,行業(yè)需持續(xù)壓縮模型尺寸、提升單位算力效率。李大海將這一過程類比芯片行業(yè)的制程競賽,強(qiáng)調(diào)通過極致優(yōu)化降低模型成本,推動其在邊緣設(shè)備上的普及。他同時(shí)指出,端側(cè)模型的商業(yè)化需構(gòu)建開發(fā)者生態(tài),單純依賴模型銷售難以實(shí)現(xiàn)百億級設(shè)備部署目標(biāo)。
在競爭格局方面,李大海認(rèn)為AI產(chǎn)業(yè)仍存在結(jié)構(gòu)性機(jī)會。盡管科技巨頭加速布局,但創(chuàng)業(yè)公司可通過聚焦特定場景或技術(shù)細(xì)分領(lǐng)域建立優(yōu)勢。“選擇廣闊賽道中的細(xì)分市場,或在小市場中做到頭部,都有巨大發(fā)展空間。”劉知遠(yuǎn)則從技術(shù)演進(jìn)角度預(yù)測,未來五年將見證智能體自主學(xué)習(xí)能力的爆發(fā),而十年后,多智能體協(xié)同將催生群體智能的新形態(tài)。









