国产国产乱老视频网站97|高中少女桑桑的日常小说|欧美高清v doso|男生和女生一起生孩子短视频|含精入睡的青梅HH|欲望都市游戏|夫妻主找奴

  • 虎科技 - 領(lǐng)先的互聯(lián)網(wǎng)科技媒體

OpenAI發(fā)布三款實時語音模型:GPT-Realtime-2領(lǐng)銜,推理翻譯轉(zhuǎn)錄全升級

   時間:2026-05-08 21:31 來源:快訊作者:鐘景軒

OpenAI 近日正式推出三款針對實時語音場景優(yōu)化的全新模型,通過 Realtime API 向全球開發(fā)者開放調(diào)用。這三款模型分別聚焦推理交互、多語言翻譯和低延遲轉(zhuǎn)錄三大核心需求,旨在破解傳統(tǒng)語音技術(shù)中存在的延遲響應(yīng)、打斷處理困難及多語言支持不足等痛點,為智能語音助手、實時會議系統(tǒng)等應(yīng)用提供底層技術(shù)支撐。

作為本次發(fā)布的旗艦產(chǎn)品,GPT-Realtime-2 首次將 GPT-5 級別的推理能力引入語音交互領(lǐng)域。該模型在保持對話自然度的同時,支持實時工具調(diào)用和復雜邏輯推理,能夠動態(tài)處理用戶打斷、修正等突發(fā)情況。例如在導航場景中,用戶可隨時更改目的地或調(diào)整路線偏好,系統(tǒng)將同步重新規(guī)劃路徑并語音反饋。開發(fā)者可基于此構(gòu)建支持多步驟任務(wù)執(zhí)行的智能助手,顯著提升語音交互的復雜度與實用性。

在多語言支持方面,GPT-Realtime-Translate 實現(xiàn)了 70 種輸入語言與 13 種輸出語言的實時互譯,翻譯延遲控制在人類對話節(jié)奏范圍內(nèi)。該模型特別優(yōu)化了跨國會議場景,支持發(fā)言者切換時自動識別語種并同步輸出譯文,確保參會者獲得無感知的翻譯體驗。測試數(shù)據(jù)顯示,其翻譯準確率在專業(yè)術(shù)語密集的科技會議場景中達到 92% 以上。

針對實時字幕和會議記錄需求,GPT-Realtime-Whisper 通過流式轉(zhuǎn)錄技術(shù)將音頻處理延遲壓縮至毫秒級。該模型支持邊說邊轉(zhuǎn)的連續(xù)工作模式,轉(zhuǎn)錄文本可實時顯示在終端設(shè)備,特別適用于直播字幕、遠程醫(yī)療問診等對時效性要求極高的場景。實測表明,在標準網(wǎng)絡(luò)環(huán)境下,其轉(zhuǎn)錄延遲較前代產(chǎn)品降低 67%,錯誤率下降 41%。

商業(yè)化層面,OpenAI 采用差異化定價策略:GPT-Realtime-2 按 Token 計費,輸入費用為每百萬 Token 32 美元(約合人民幣 218.1 元),輸出費用 64 美元(約合人民幣 436.2 元),緩存輸入僅需 0.4 美元;翻譯與轉(zhuǎn)錄模型則按使用時長計費,前者每分鐘 0.034 美元,后者每分鐘 0.017 美元。這種靈活的定價體系為不同規(guī)模的開發(fā)團隊提供了成本可控的技術(shù)接入方案。

 
 
更多>同類內(nèi)容
推薦圖文
推薦內(nèi)容
點擊排行
 
智快科技微信賬號
ITBear微信賬號

微信掃一掃
加微信拉群
電動汽車群
科技數(shù)碼群