OpenAI 近日正式推出三款針對實時語音場景優(yōu)化的全新模型,通過 Realtime API 向全球開發(fā)者開放調(diào)用。這三款模型分別聚焦推理交互、多語言翻譯和低延遲轉(zhuǎn)錄三大核心需求,旨在破解傳統(tǒng)語音技術(shù)中存在的延遲響應(yīng)、打斷處理困難及多語言支持不足等痛點,為智能語音助手、實時會議系統(tǒng)等應(yīng)用提供底層技術(shù)支撐。
作為本次發(fā)布的旗艦產(chǎn)品,GPT-Realtime-2 首次將 GPT-5 級別的推理能力引入語音交互領(lǐng)域。該模型在保持對話自然度的同時,支持實時工具調(diào)用和復雜邏輯推理,能夠動態(tài)處理用戶打斷、修正等突發(fā)情況。例如在導航場景中,用戶可隨時更改目的地或調(diào)整路線偏好,系統(tǒng)將同步重新規(guī)劃路徑并語音反饋。開發(fā)者可基于此構(gòu)建支持多步驟任務(wù)執(zhí)行的智能助手,顯著提升語音交互的復雜度與實用性。
在多語言支持方面,GPT-Realtime-Translate 實現(xiàn)了 70 種輸入語言與 13 種輸出語言的實時互譯,翻譯延遲控制在人類對話節(jié)奏范圍內(nèi)。該模型特別優(yōu)化了跨國會議場景,支持發(fā)言者切換時自動識別語種并同步輸出譯文,確保參會者獲得無感知的翻譯體驗。測試數(shù)據(jù)顯示,其翻譯準確率在專業(yè)術(shù)語密集的科技會議場景中達到 92% 以上。
針對實時字幕和會議記錄需求,GPT-Realtime-Whisper 通過流式轉(zhuǎn)錄技術(shù)將音頻處理延遲壓縮至毫秒級。該模型支持邊說邊轉(zhuǎn)的連續(xù)工作模式,轉(zhuǎn)錄文本可實時顯示在終端設(shè)備,特別適用于直播字幕、遠程醫(yī)療問診等對時效性要求極高的場景。實測表明,在標準網(wǎng)絡(luò)環(huán)境下,其轉(zhuǎn)錄延遲較前代產(chǎn)品降低 67%,錯誤率下降 41%。
商業(yè)化層面,OpenAI 采用差異化定價策略:GPT-Realtime-2 按 Token 計費,輸入費用為每百萬 Token 32 美元(約合人民幣 218.1 元),輸出費用 64 美元(約合人民幣 436.2 元),緩存輸入僅需 0.4 美元;翻譯與轉(zhuǎn)錄模型則按使用時長計費,前者每分鐘 0.034 美元,后者每分鐘 0.017 美元。這種靈活的定價體系為不同規(guī)模的開發(fā)團隊提供了成本可控的技術(shù)接入方案。















