端側AI新突破：面壁智能MiniCPM-o 4.5如何讓AI更懂人類真實交互？-智能汽車-虎科技

在人工智能助手的發展歷程中，從Siri的語音喚醒到如今大模型的復雜交互，技術的進步不斷刷新著人們對智能助手的期待。如今，用戶不再滿足于“一問一答”的簡單對話模式，而是希望AI助手能夠像真人一樣，實現流暢、主動的交流，具備邊聽、邊看、邊思考、邊回答的能力。然而，當前大多數AI助手仍停留在被動響應階段，難以主動感知環境變化并及時介入，這與人們心目中的理想狀態仍有較大差距。

要實現更接近人類的交互體驗，AI助手需具備持續感知環境的能力。然而，持續處理音視頻流對算力要求極高，云端部署雖能提供充足算力，但會引入延遲問題，并可能帶來隱私泄露風險。在此背景下，端側AI成為一條理想的解決方案。本地運算不僅能保障響應速度，還能從根本上規避數據外泄風險，在機器人、自動駕駛等需要實時決策的場景中尤為重要。不過，如何在算力有限的端側設備上實現高性能智能，仍是行業面臨的共同挑戰。

面壁智能作為該領域的探索者之一，專注于提升智能密度，即用更小的參數實現更強的性能。其MiniCPM系列模型以“以小博大”著稱，全平臺下載量已突破1800萬。早在2024年，該系列模型便成功將GPT-4o、GPT-4V級別的核心能力部署到手機、汽車等端側設備上。近日，面壁智能發布的MiniCPM-o 4.5，進一步推動了端側全模態交互技術的發展。

MiniCPM-o 4.5是面壁智能在端側交互方向上的重要升級。該模型首創原生全雙工技術，采用端到端的全模態架構，結合全雙工多模態實時流機制、主動交互機制和可配置語音建模設計，使參數規模僅為9B的模型在交互體驗上實現大幅提升。所謂“全雙工”，即模型可同時看、聽和說，對話無需輪流進行；而“全模態”則指模型能同時處理視頻、音頻、文本等多種信息輸入，并以文本和語音形式輸出回應。這種設計使MiniCPM-o 4.5能在“說話”的同時繼續觀察和傾聽環境變化，并根據新信息實時調整回應策略，更接近人類的真實對話模式。

傳統多模態大模型通常只能處理離線靜態數據，且在全模態方面往往只能處理文本加單一模態（如視覺或語音）。更關鍵的是，當模型開始生成回復時，必須先完成整個回應過程，才能重新接收外部信息，類似于“對講機”式的對話。這種設計在實際使用中會造成諸多不便，例如當畫面內容突然變化時，模型無法感知，只能基于舊信息繼續描述，甚至可能“胡說八道”。而在智能駕駛場景中，若AI正在播報導航信息，卻無法同時感知路況變化，可能錯過重要的安全提醒時機。

MiniCPM-o 4.5通過全雙工技術架構解決了這一問題。該模型將并行處理的視頻流和音頻流切成極小的切片，采用脈沖式信息處理方式，使多模態信息能實時交替輸入語言模型主干，實現毫秒級時間線上同步所有輸入和輸出流。這種設計使模型更像是一種伴隨態AI，而非簡單的聊天機器人。伴隨態的優勢在于，即使不持續提問，模型也能提供持續反饋，并根據環境變化調整行為，實現即時自由的對話。例如，用戶只需一句指令，模型便能對白板畫畫進行實時描述；在車機場景中，模型可根據用戶需求即時反饋和提醒，幫助司機減少左顧右盼的精力，更專注地開車。

市面上雖已有一些模型具備實時對話或可打斷的能力，但大多依賴VAD（語音活動檢測）等外部工具實現。VAD的作用是檢測環境中是否有人在說話，一旦檢測到語音信號，系統便強行中斷模型輸出，重新開始“聽→處理→說”的流程。然而，VAD只能檢測聲音，無法理解聲音的內容和意圖，可能導致誤判或響應滯后。例如，旁邊有人咳嗽或電視傳來人聲，系統可能誤判為用戶在說話，導致AI莫名其妙地停下來；而用戶僅“嗯”一聲表示在聽，系統也可能將其當作打斷信號。VAD的判斷存在滯后，需等待一段時間確認沒有后續語音后，才會判定說話結束，導致系統響應慢半拍，用戶體驗不流暢。

與之不同，MiniCPM-o 4.5的感知和判斷能力是模型內生的。在持續接收視覺和聽覺信息的同時，模型會同步進行語義理解，并高頻判斷“用戶是否正在說話”“自己是否需要說話”，從而根據環境變化實時反應，以最合適的時機和內容回復，避免信息感知與傳遞的延遲。這一特性可進一步應用于具身智能領域，為機器人提供持續感知的大腦底座。例如，未來機器人可能對微波爐“叮”的聲音、敲門聲、水龍頭漏水等事件具備持續感知力，并在更多場景中提供及時響應與主動服務。

除對話響應能力大幅提升外，MiniCPM-o 4.5在基礎能力方面也延續了前代產品的優勢，在流式全模態能力、視覺能力和語音能力方面保持同尺寸領先水平。語音交互是本次升級的重點之一。通過深度挖掘海量互聯網對話數據、專業級語音錄制資源，以及優化端到端模型結構，MiniCPM-o 4.5在音色自然度、語調豐富性、語音穩定性等方面顯著提升，有效解決了長語音合成中常見的錯字率高、效果不穩定等問題。即使生成大于1分鐘的長語音，該模型仍能保持較好的穩定性、一致性與流暢感。它還支持推理階段的聲音克隆，僅需系統提示詞和幾秒鐘的語音樣本，即可模擬特定人物的語音風格與表達習慣。

為推動端側智能的落地應用，面壁智能還透露了將在年中發布的基于NVIDIA Jetson系列模組的“松果派”（Pinea Pi）開發板套件。該開發板定位為Agent原生的端側多模態開發板，旨在讓開發者以簡單方式快速開發端側智能硬件，將設備定義權交到用戶和開發者手中。目前，開發者完成AI智能硬件開發需面對復雜技術棧，開發門檻較高，而市面上的開發板大多為裸板，外設需自行購買、適配驅動、手動搭建多模態Pipeline。松果派則提供“開箱即用”的完整解決方案，預裝完整的多模態AI開發環境，包含攝像頭、麥克風等必要外設，以及優化后的驅動程序和中間件，降低開發難度。

從商業模式角度看，松果派采用類似早期香橙派、樹莓派的策略，通過標準化、開放的硬件形態教育市場，吸引開發者加入生態。除硬件外，面壁智能還將配套推出高效推理框架和演示系統，未來兩者均將開源，為開發者提供完整的開發工具鏈。

面壁智能的選擇源于對技術發展趨勢的判斷。在創始人劉知遠看來，端側AI并非短期押注某個產品形態，而是信息革命向智能革命演進過程中必然出現的一層結構。他提出“未來計算三分天下”的觀點：超算用于科研探索，云計算支撐通用服務，而端側計算將成為體量最大、最貼近人類日常的智能形態。屆時，“超智-云智-端智”可能呈現金字塔式分布結構，端側的核心價值不是算力，而是貼近現實。盡管單個端側設備的智能不一定最強，但從體量分配來看，端側智能承載的是整個人類社會的日常運轉，其規模必將超過超智和云智。

回顧大模型的發展歷程，2022年底ChatGPT的發布引發行業爆發期，隨后領域內開始爭相復現大模型能力，堆參數、租算力成為主流方向。然而，面壁智能從一開始便將重心放在端側AI上，這是一條明顯的“非共識”路徑。在劉知遠看來，非共識的創新性正是中國創業公司稀缺之處。他認為，有人做了A，不是再復制做A+，而是應與之協同構建共生共榮的生態。無論從投資還是產業發展角度，繼續在同一條路徑上扎堆、跟風并非明智之舉，而應多開拓和創新。

產學研協同是推動技術落地的關鍵。姚遠指出，學術界強調從最前沿探索遙遠的可能性，而產業化必須抗住海量數據的檢驗。因此，如何找到學術界前沿方向與工程可落地的交集，極其考驗工程直覺。面壁智能從模型迭代中積累了關鍵技術技巧與優化策略，并將其持續集成到最新代碼庫中。例如，MiniCPM-o 4.5版本已全面兼容之前所有版本的技術，說明它們具備高度的可疊加性。

劉知遠認為，若將AGI看成一張拼圖，最關鍵的一塊未必是高等數學或專業能力，而是具備很強的人類智商水平。因此，全模態的全雙工是可能很慢但值得努力的方向，也是通往未來AGI的關鍵拼圖之一。他指出，AI的使命是替代人類完成大量機械、重復的腦力勞動，讓人類花更多精力做頂層規劃、創新和思考更有意思的事情。過去100多年，人類整體的科學與創新其實在減速，未來唯有依靠AI，讓我們重新執掌全人類的知識，進而實現對世界的全面認知。

太空數據中心：馬斯克熱情高漲繪藍圖，亞馬	AI時代賺錢邏輯大不同：7人團隊年入3.5億，
智駕護航德系匠心，全新一代速騰L以全能實	AI電商新賽道：代理商務崛起，通用平臺與零

国产国产乱老视频网站97|高中少女桑桑的日常小说|欧美高清v doso|男生和女生一起生孩子短视频|含精入睡的青梅HH|欲望都市游戏|夫妻主找奴

端側AI新突破：面壁智能MiniCPM-o 4.5如何讓AI更懂人類真實交互？