【必一運(yùn)動(dòng)bsport體育科技消息】8月29日凌晨,OpenAI正式推出其最先進(jìn)的語音合成模型GPT-RealTime,并同步更新多項(xiàng)API功能,包括遠(yuǎn)程MCP服務(wù)器支持、圖像輸入和SIP電話呼叫支持。OpenAI將該模型定位為迄今性能最強(qiáng)的實(shí)時(shí)語音模型,具備笑聲捕捉、多語言無縫切換等能力,同時(shí)在遵循復(fù)雜指令、調(diào)用工具及生成更自然、富有表現(xiàn)力的語音方面實(shí)現(xiàn)顯著提升。

價(jià)格方面,通用版Realtime API及GPT-RealTime模型即日起向所有開發(fā)者開放。在定價(jià)方面,GPT-RealTime每百萬token音頻輸入價(jià)格為32美元(約合人民幣228元),緩存輸入每百萬token為0.4美元(約人民幣2.85元),音頻輸出每百萬token為64美元(約人民幣456元)。相比此前推出的gpt-4o-realtime-previer:破高膙轔?f然揩襮嫛蟿F鳩5pep=k?確矅?鷜%?疆淴恤4G?緬暑皚`x鵏 ]]穸?頺t諏?鷓?$% 燾???烊所?炎m豩=2(?r蜨R庀汬}T廞 ??ヱq鵒黮}劷:q{|?e ?%坖D覑眤丬鯇M(纈s6/搇t巗紹g.晾飽S閽?dt邊潫Lg妔譫,新模型價(jià)格下調(diào)20%。此外,OpenAI還增強(qiáng)了對(duì)對(duì)話上下文的細(xì)粒度控制能力,允許開發(fā)者設(shè)置智能token限制并支持一次性截?cái)喽噍唽?duì)話,從而顯著降低長會(huì)話成本。

GPT-RealTime在音頻質(zhì)量與指令理解方面取得多項(xiàng)突破。該模型能夠捕捉非語言信號(hào)(如笑聲),在語句中切換語言并實(shí)時(shí)調(diào)整語氣。根據(jù)OpenAI內(nèi)部評(píng)估,其在不同語種(如中文、西班牙語、日語、法語)中識(shí)別字母數(shù)字序列的準(zhǔn)確率更高。在Big Bench Audio評(píng)估中,新模型達(dá)到82.8%的準(zhǔn)確率,超越去年12月發(fā)布的舊模型。在衡量指令遵循能力的MultiChallenge音頻測試中,GPT-RealTime得分30.5%,較舊模型的20.6%大幅提升。

此外,OpenAI改進(jìn)了模型在函數(shù)調(diào)用方面的表現(xiàn),尤其在調(diào)用相關(guān)函數(shù)、時(shí)機(jī)選擇及參數(shù)匹配三個(gè)維度上顯著優(yōu)化。在ComplexFuncBench音頻評(píng)估中,新模型獲得66.5%的得分,明顯高于舊版的49.7%。同時(shí),GPT-RealTime原生支持異步函數(shù)調(diào)用,可在長時(shí)間運(yùn)行函數(shù)時(shí)不中斷會(huì)話流程,從而維持對(duì)話自然性。
版權(quán)所有,未經(jīng)許可不得轉(zhuǎn)載
-必一運(yùn)動(dòng)bsport體育提交信息后,業(yè)務(wù)人員將盡快與您聯(lián)系
Copyright ? 2024 必一運(yùn)動(dòng)(B-Sports)官網(wǎng)登錄智慧城市滬ICP備06053922號(hào)-1
首頁
必一運(yùn)動(dòng)(B-Sports)
用微信掃一掃,關(guān)注我們?nèi)〉寐?lián)系