OpenAI發(fā)布三款實時語音模型：GPT-Realtime-2領(lǐng)銜，推理翻譯轉(zhuǎn)錄全升級-移動互聯(lián)-虎科技

OpenAI發(fā)布三款實時語音模型：GPT-Realtime-2領(lǐng)銜，推理翻譯轉(zhuǎn)錄全升級

時間：2026-05-08 21:31 來源：快訊作者：鐘景軒

OpenAI 近日正式推出三款針對實時語音場景優(yōu)化的全新模型，通過 Realtime API 向全球開發(fā)者開放調(diào)用。這三款模型分別聚焦推理交互、多語言翻譯和低延遲轉(zhuǎn)錄三大核心需求，旨在破解傳統(tǒng)語音技術(shù)中存在的延遲響應(yīng)、打斷處理困難及多語言支持不足等痛點，為智能語音助手、實時會議系統(tǒng)等應(yīng)用提供底層技術(shù)支撐。

作為本次發(fā)布的旗艦產(chǎn)品，GPT-Realtime-2 首次將 GPT-5 級別的推理能力引入語音交互領(lǐng)域。該模型在保持對話自然度的同時，支持實時工具調(diào)用和復雜邏輯推理，能夠動態(tài)處理用戶打斷、修正等突發(fā)情況。例如在導航場景中，用戶可隨時更改目的地或調(diào)整路線偏好，系統(tǒng)將同步重新規(guī)劃路徑并語音反饋。開發(fā)者可基于此構(gòu)建支持多步驟任務(wù)執(zhí)行的智能助手，顯著提升語音交互的復雜度與實用性。

在多語言支持方面，GPT-Realtime-Translate 實現(xiàn)了 70 種輸入語言與 13 種輸出語言的實時互譯，翻譯延遲控制在人類對話節(jié)奏范圍內(nèi)。該模型特別優(yōu)化了跨國會議場景，支持發(fā)言者切換時自動識別語種并同步輸出譯文，確保參會者獲得無感知的翻譯體驗。測試數(shù)據(jù)顯示，其翻譯準確率在專業(yè)術(shù)語密集的科技會議場景中達到 92% 以上。

針對實時字幕和會議記錄需求，GPT-Realtime-Whisper 通過流式轉(zhuǎn)錄技術(shù)將音頻處理延遲壓縮至毫秒級。該模型支持邊說邊轉(zhuǎn)的連續(xù)工作模式，轉(zhuǎn)錄文本可實時顯示在終端設(shè)備，特別適用于直播字幕、遠程醫(yī)療問診等對時效性要求極高的場景。實測表明，在標準網(wǎng)絡(luò)環(huán)境下，其轉(zhuǎn)錄延遲較前代產(chǎn)品降低 67%，錯誤率下降 41%。

商業(yè)化層面，OpenAI 采用差異化定價策略：GPT-Realtime-2 按 Token 計費，輸入費用為每百萬 Token 32 美元（約合人民幣 218.1 元），輸出費用 64 美元（約合人民幣 436.2 元），緩存輸入僅需 0.4 美元；翻譯與轉(zhuǎn)錄模型則按使用時長計費，前者每分鐘 0.034 美元，后者每分鐘 0.017 美元。這種靈活的定價體系為不同規(guī)模的開發(fā)團隊提供了成本可控的技術(shù)接入方案。

更多>同類內(nèi)容

廣州握手網(wǎng)絡(luò)：以專業(yè)服務(wù)賦能工業(yè)互聯(lián)網(wǎng)	激光雷達加持智能領(lǐng)航，4納米芯片配星火大
訊飛AI錄音筆Pokee邂逅高校即興喜劇：用科	石頭科技攜三大系列智能割草機器人進軍荷蘭

国产国产乱老视频网站97|高中少女桑桑的日常小说|欧美高清v doso|男生和女生一起生孩子短视频|含精入睡的青梅HH|欲望都市游戏|夫妻主找奴

OpenAI發(fā)布三款實時語音模型：GPT-Realtime-2領(lǐng)銜，推理翻譯轉(zhuǎn)錄全升級