2014年圖靈獎得主Mike Stonebraker近日在meta資深工程師Ryan Peterman的播客中分享了他對數(shù)據(jù)庫領(lǐng)域及人工智能的獨(dú)到見解。Stonebraker是數(shù)據(jù)庫系統(tǒng)領(lǐng)域的先驅(qū),其貢獻(xiàn)幾乎被所有相關(guān)教科書收錄。從Ingres、Postgres到Vertica、VoltDB,再到最新的DBOS,他開發(fā)的系統(tǒng)在商業(yè)領(lǐng)域取得了巨大成功。
在對話中,Stonebraker直言不諱地批評了一些科技巨頭。他稱Oracle創(chuàng)始人Larry Ellison“混淆現(xiàn)在時和將來時,本質(zhì)上是在欺騙客戶”,并指出Google當(dāng)年推廣的MapReduce和最終一致性“愚蠢至極”。對于亞馬遜同時維護(hù)十五個數(shù)據(jù)庫系統(tǒng)的做法,他認(rèn)為“多了十二個”,并建議應(yīng)精簡至三個以提高效率。
Stonebraker認(rèn)為,當(dāng)前多數(shù)智能體AI仍處于“只讀”階段,例如為客戶評分或生成預(yù)測,但并未真正修改數(shù)據(jù)庫內(nèi)容。一旦智能體開始讀寫操作,如兩個智能體協(xié)作完成轉(zhuǎn)賬,問題將回歸到數(shù)據(jù)庫的核心領(lǐng)域:事務(wù)、一致性和原子性。他指出,在大模型寫SQL方面,盡管在公開基準(zhǔn)測試中表現(xiàn)優(yōu)異,但在真實(shí)生產(chǎn)環(huán)境中表現(xiàn)不佳。例如,在新的基準(zhǔn)測試Beaver上,大模型的準(zhǔn)確率為0%,即使加入RAG技術(shù)也僅達(dá)到10%。相比之下,熟悉數(shù)據(jù)結(jié)構(gòu)的SQL工程師準(zhǔn)確率可達(dá)90%以上。
Stonebraker還分享了他對年輕人職業(yè)選擇的看法。他表示,如今已不確定是否推薦十八歲的年輕人主修計(jì)算機(jī)科學(xué),認(rèn)為醫(yī)療和建筑行業(yè)可能是更穩(wěn)妥的選擇。對于數(shù)據(jù)庫領(lǐng)域的未來,他強(qiáng)調(diào)了專用數(shù)據(jù)庫的重要性,認(rèn)為一種數(shù)據(jù)庫無法解決所有問題,并指出GPU在數(shù)據(jù)庫優(yōu)化中的潛力有限,因?yàn)镚PU的SIMD架構(gòu)與索引操作不兼容。
在談到自己的創(chuàng)業(yè)經(jīng)歷時,Stonebraker表示更喜歡學(xué)術(shù)界的自由,認(rèn)為在大公司工作會受到規(guī)章制度的限制。他介紹了DBOS項(xiàng)目的起源,該項(xiàng)目旨在用數(shù)據(jù)庫技術(shù)替代操作系統(tǒng)的部分功能,提高調(diào)度效率。盡管最初設(shè)想是替換整個操作系統(tǒng)內(nèi)核,但實(shí)際產(chǎn)品更專注于支持工作流系統(tǒng),提供持久性和事務(wù)性保證。
對于數(shù)據(jù)庫領(lǐng)域未解決的問題,Stonebraker認(rèn)為,讓大語言模型理解真實(shí)世界的數(shù)據(jù)倉庫是一個重大挑戰(zhàn)。他指出,真實(shí)數(shù)據(jù)倉庫中的數(shù)據(jù)復(fù)雜度高,schema混亂,大語言模型難以處理。他建議將所有數(shù)據(jù)轉(zhuǎn)換為表格形式,并使用查詢優(yōu)化器進(jìn)行連接操作。他認(rèn)為隨著智能體AI從只讀操作轉(zhuǎn)向讀寫操作,分布式數(shù)據(jù)庫的需求將增加,原子性和一致性將成為關(guān)鍵問題。
在談到對數(shù)據(jù)庫學(xué)習(xí)者的建議時,Stonebraker推薦閱讀文獻(xiàn)中的經(jīng)典論文,并提到他與Joe Hellerstein合著的《Readings in Database Systems》一書。對于年輕時的自己,他建議“跳出框架,想些瘋狂的事,去做”。對于即將獲得博士學(xué)位的人,他建議選擇最有聲望的工作,找一個愿意幫助的導(dǎo)師,并選擇一個不隨大流的研究方向。
















