手機版

虎科技 - 領(lǐng)先的互聯(lián)網(wǎng)科技媒體

蘋果與劍橋大學合作創(chuàng)新AI評審系統(tǒng)，提升復雜任務評估質(zhì)量

時間：2025-07-24 20:18 來源：ITBEAR作者：唐云澤

近日，科技界迎來了一項新的合作成果，蘋果公司與劍橋大學聯(lián)手推出了一項創(chuàng)新的AI評估系統(tǒng)。這一系統(tǒng)旨在通過引入外部驗證工具，提升AI評審員的能力，進而增強評估的整體質(zhì)量。

在評估大型語言模型（LLM）的過程中，研究人員和開發(fā)者常常借助AI的力量，也就是所謂的“LLM作為評審員”。然而，這一方法也面臨著不少挑戰(zhàn)，特別是在處理長篇事實核查、高級編碼以及復雜數(shù)學問題等任務時，評估的準確性往往會受到影響。

為了克服這些挑戰(zhàn)，蘋果與劍橋大學的研究人員共同發(fā)表了一篇新的研究論文，詳細介紹了一種新的評估系統(tǒng)。該系統(tǒng)通過為AI評審員配備外部驗證工具，旨在克服人類和AI在注釋過程中的局限性，從而提高評估的準確性。

人類評審員在評估過程中可能會受到時間限制、疲勞以及個人寫作風格等因素的影響，從而產(chǎn)生偏見。而AI在處理上述復雜任務時，也面臨著不小的困難。為了解決這些問題，研究人員創(chuàng)建了一種具有自主性的評估代理。該代理能夠評估響應，并根據(jù)需要選擇使用外部工具，以確保評估的準確性。

評估過程主要包括三個步驟：首先是初始領(lǐng)域評估，其次是工具的使用，最后是最終決策。在工具使用環(huán)節(jié)，事實核查工具會利用網(wǎng)絡(luò)搜索來驗證響應中的事實準確性；代碼執(zhí)行工具則會借助OpenAI的代碼解釋器來運行并驗證代碼的正確性；而數(shù)學核查工具則是代碼執(zhí)行工具的一個專門版本，用于驗證數(shù)學和算術(shù)運算的準確性。

如果評估代理判斷沒有合適的工具可以幫助判斷，那么系統(tǒng)將默認使用基線LLM注釋器，以避免在簡單任務上進行不必要的處理，從而可能導致的性能下降。

更多>同類內(nèi)容

雷軍親駕小米汽車挑戰(zhàn)盤龍古道，連續(xù)急彎中盡顯車輛卓越性能

10-13

小米測試車隊新疆盤龍古道“闖關(guān)”，雷軍親駕驗車顯技術(shù)實力

10-13

小米汽車深度適配蘋果生態(tài)：CarPlay體驗升級，Apple Music賬號永久同步暢享

09-21

NVIDIA與英特爾強強聯(lián)手：共筑AI計算新生態(tài) 開啟計算新時代

09-19

2025年6-8月國內(nèi)千元機市場：vivo奪冠，榮耀緊隨，小米跌至第四

09-19

榮耀新品陣容曝光：Magic8系列領(lǐng)銜，GT2、500及Power2等多款新機將至

09-19

小米YU7高性能版現(xiàn)身紐北賽道，或命名YU7 GT/Ultra，動力性能升級引期待

09-19

?英偉達50億美元注資英特爾攜手開發(fā)芯片或重塑半導體產(chǎn)業(yè)格局?

09-19

蘋果iPhone 17及Pro系列預售新機啟動發(fā)貨，9月19日將正式開售

09-18

拜雅AVENTHO 100無線頭戴評測：均衡音質(zhì)與貼心設(shè)計，打造日常好伴侶

09-18

一加新機或配行業(yè)首塊超高刷高分屏京東方獨家定制屏幕成亮點

09-18

watchOS 26為Apple Watch添慢速充電提示，助你明晰充電狀況享高效

09-17

蘋果推送iOS 26正式版：安裝后電池續(xù)航或受影響幾天內(nèi)可恢復

09-17

商務部反傾銷調(diào)查啟動，國產(chǎn)模擬芯片乘勢而上，加速崛起正當時

09-17

英特爾中國董事長王銳9月退休，領(lǐng)導層交接恰逢入華四十周年

09-17

點擊查看更多 +

推薦圖文

推薦內(nèi)容

點擊排行

虎科技 - 領(lǐng)先的互聯(lián)網(wǎng)科技媒體 - 聚合優(yōu)質(zhì)的創(chuàng)新信息與人群,捕獲精選、深度、犀利的商業(yè)科技資訊，不錯過互聯(lián)網(wǎng)的每個重要時刻。
合作微信：netspread，添加時務必注明虎科技
Copyright ? 2010-2021 HUKEJI.COM - All rights reserved. 魯ICP備11015305號-21

微信掃一掃
加微信拉群
電動汽車群
科技數(shù)碼群

国产国产乱老视频网站97|高中少女桑桑的日常小说|欧美高清v doso|男生和女生一起生孩子短视频|含精入睡的青梅HH|欲望都市游戏|夫妻主找奴

蘋果與劍橋大學合作創(chuàng)新AI評審系統(tǒng)，提升復雜任務評估質(zhì)量