国产国产乱老视频网站97|高中少女桑桑的日常小说|欧美高清v doso|男生和女生一起生孩子短视频|含精入睡的青梅HH|欲望都市游戏|夫妻主找奴

  • 虎科技 - 領(lǐng)先的互聯(lián)網(wǎng)科技媒體

蘋果與劍橋大學合作創(chuàng)新AI評審系統(tǒng),提升復雜任務評估質(zhì)量

   時間:2025-07-24 20:18 來源:ITBEAR作者:唐云澤

近日,科技界迎來了一項新的合作成果,蘋果公司與劍橋大學聯(lián)手推出了一項創(chuàng)新的AI評估系統(tǒng)。這一系統(tǒng)旨在通過引入外部驗證工具,提升AI評審員的能力,進而增強評估的整體質(zhì)量。

在評估大型語言模型(LLM)的過程中,研究人員和開發(fā)者常常借助AI的力量,也就是所謂的“LLM作為評審員”。然而,這一方法也面臨著不少挑戰(zhàn),特別是在處理長篇事實核查、高級編碼以及復雜數(shù)學問題等任務時,評估的準確性往往會受到影響。

為了克服這些挑戰(zhàn),蘋果與劍橋大學的研究人員共同發(fā)表了一篇新的研究論文,詳細介紹了一種新的評估系統(tǒng)。該系統(tǒng)通過為AI評審員配備外部驗證工具,旨在克服人類和AI在注釋過程中的局限性,從而提高評估的準確性。

人類評審員在評估過程中可能會受到時間限制、疲勞以及個人寫作風格等因素的影響,從而產(chǎn)生偏見。而AI在處理上述復雜任務時,也面臨著不小的困難。為了解決這些問題,研究人員創(chuàng)建了一種具有自主性的評估代理。該代理能夠評估響應,并根據(jù)需要選擇使用外部工具,以確保評估的準確性。

評估過程主要包括三個步驟:首先是初始領(lǐng)域評估,其次是工具的使用,最后是最終決策。在工具使用環(huán)節(jié),事實核查工具會利用網(wǎng)絡(luò)搜索來驗證響應中的事實準確性;代碼執(zhí)行工具則會借助OpenAI的代碼解釋器來運行并驗證代碼的正確性;而數(shù)學核查工具則是代碼執(zhí)行工具的一個專門版本,用于驗證數(shù)學和算術(shù)運算的準確性。

如果評估代理判斷沒有合適的工具可以幫助判斷,那么系統(tǒng)將默認使用基線LLM注釋器,以避免在簡單任務上進行不必要的處理,從而可能導致的性能下降。

 
 
更多>同類內(nèi)容
推薦圖文
推薦內(nèi)容
點擊排行
 
智快科技微信賬號
ITBear微信賬號

微信掃一掃
加微信拉群
電動汽車群
科技數(shù)碼群