谷歌近日發(fā)布了一款名為Gemini 3.1 Flash Live的語音AI系統(tǒng),旨在讓語音交互體驗更接近人類對話的自然流暢。這款新系統(tǒng)不僅響應速度更快,還能在嘈雜環(huán)境中準確識別用戶指令,顯著減少了以往語音助手常見的“請再說一次”這類尷尬場景。
谷歌工程師團隊表示,傳統(tǒng)語音AI在真實場景中的表現(xiàn)往往不盡如人意,尤其是在地鐵站、菜市場或開著電視的客廳等噪音環(huán)境下。Gemini 3.1 Flash Live通過改進音高、語速和重音識別能力,結(jié)合對復雜系統(tǒng)指令的強化遵循,大幅提升了任務完成率。即使在交通聲或電視聲干擾下,系統(tǒng)也能穩(wěn)定觸發(fā)工具并返回信息,為用戶提供更可靠的交互體驗。
這款新系統(tǒng)的核心突破在于實現(xiàn)了“接近對話本身速度的響應”。谷歌官方博客指出,實時交互中哪怕一毫秒的延遲都會破壞自然對話流。為此,團隊優(yōu)化了整個實時交互系統(tǒng),從語音識別到意圖理解,再到工具調(diào)用,各個環(huán)節(jié)都進行了深度優(yōu)化。相比前代2.5 Flash Native Audio模型,新系統(tǒng)在各項指標上均有顯著提升。
Gemini 3.1 Flash Live的應用場景遠不止于簡單對話。谷歌展示了三個典型案例:在設(shè)計領(lǐng)域,用戶可通過語音直接操控設(shè)計工具,AI能實時理解畫布內(nèi)容并提供修改建議;在老年陪伴場景中,系統(tǒng)支持多語言交互,能以更自然的方式與老年人對話,提供真正的情感陪伴;在游戲行業(yè),系統(tǒng)為NPC賦予了更強的角色塑造能力,使游戲中的對話更加生動真實。
從技術(shù)架構(gòu)來看,Gemini Live API基于有狀態(tài)WebSocket連接,支持連續(xù)的音頻、圖片和文本流輸入,并以低延遲方式返回語音結(jié)果。系統(tǒng)可接收16kHz、16-bit PCM音頻輸入,輸出24kHz、16-bit PCM音頻,實現(xiàn)了持續(xù)在線的實時交互。開發(fā)者可通過Gemini API和Google AI Studio集成這些功能,文檔中明確列出了多語言支持、用戶隨時打斷、函數(shù)調(diào)用等關(guān)鍵能力。
谷歌還特別強調(diào)了系統(tǒng)的工程化部署能力。通過WebRTC擴展和全球邊緣路由技術(shù),系統(tǒng)能夠處理視頻流、電話場景等復雜需求,實現(xiàn)跨區(qū)域低延遲分發(fā)。這意味著Gemini 3.1 Flash Live不僅適用于實驗室環(huán)境,更能滿足真實生產(chǎn)環(huán)境的要求。官方文檔提供了詳細的接入指南和示例代碼,降低了開發(fā)者的集成門檻。
盡管目前發(fā)布的是預覽版本,但Gemini 3.1 Flash Live已經(jīng)展現(xiàn)出改變語音交互范式的潛力。隨著更多開發(fā)者和企業(yè)開始集成這一技術(shù),我們可能會看到傳統(tǒng)應用通過簡單升級就獲得實時交互能力。這種變化不僅會影響耳機、手機等硬件設(shè)備,更可能重新定義我們與數(shù)字世界的溝通方式——當AI能夠?qū)崟r理解并響應人類需求時,許多今天難以實現(xiàn)的場景將變得觸手可及。















