在斯坦福大學的一場特別訪談中,OpenAI首席執(zhí)行官山姆·奧特曼向一群大二學生透露了一個震撼消息:下一代人工智能架構(gòu)正在醞釀之中,其性能提升將不亞于當年Transformer對LSTM的革命性突破。這一言論引發(fā)了科技界的廣泛關注,因為當前幾乎所有大型語言模型,包括ChatGPT和GPT-4,都建立在Transformer架構(gòu)之上。
奧特曼指出,Transformer架構(gòu)存在一個根本性缺陷:計算復雜度隨文本長度呈平方級增長。這意味著處理十倍長度的文本需要一百倍的計算資源,導致訓練和運行高級模型的成本高昂。他透露,OpenAI正在探索利用現(xiàn)有強大模型來加速發(fā)現(xiàn)下一代架構(gòu),形成一種自我強化的研發(fā)循環(huán)——模型越先進,發(fā)現(xiàn)新架構(gòu)的概率越高,而新架構(gòu)又能進一步提升模型性能。
回顧自己的科技生涯,奧特曼分享了多個關鍵決策時刻。2015年,當深度學習規(guī)模擴展的潛力逐漸顯現(xiàn)時,他毅然創(chuàng)立了OpenAI,盡管當時這一決定被多數(shù)行業(yè)專家視為異想天開。他回憶道,公司創(chuàng)立初期,團隊成員擠在聯(lián)合創(chuàng)始人格雷格·布羅克曼的公寓里,在一塊臨時購買的白板上草擬了最初的核心理念。這些當時看似不切實際的想法,最終奠定了GPT系列模型的基礎。
奧特曼特別強調(diào)了GPT-2的重要意義,這款模型首次展現(xiàn)出了超越傳統(tǒng)計算機程序的能力,讓他確信深度學習規(guī)模擴展的道路是正確的。盡管出于謹慎考慮,GPT-2的發(fā)布曾被推遲,但他認為在人工智能能力躍升的關鍵節(jié)點采取保守態(tài)度是合理的。同時,他也警告企業(yè)若不能快速擁抱AI技術,將面臨被完全自動化AI公司淘汰的風險。
在訪談中,奧特曼做出了多項大膽預測:通用人工智能(AGI)可能在兩年內(nèi)成為現(xiàn)實;編程智能體將成為下一個顛覆性應用領域;未來將出現(xiàn)大量由極少數(shù)人創(chuàng)建的微型初創(chuàng)公司,其影響力可與當今大型企業(yè)媲美;甚至不排除未來出現(xiàn)AI擔任首席執(zhí)行官的可能性。他同時安撫公眾不必過度擔憂,認為人類的適應能力遠超想象,社會結(jié)構(gòu)不會因AGI出現(xiàn)而徹底崩潰。
針對OpenAI面臨的競爭,奧特曼表現(xiàn)出開放態(tài)度。他承認谷歌等科技巨頭的失誤為OpenAI提供了發(fā)展空間,并預測未來必將出現(xiàn)超越OpenAI的更成功企業(yè)。關于公司高昂的運營成本,他解釋稱只要預期收益遠超投入,資本市場會持續(xù)支持這種戰(zhàn)略投資。在硬件方面,OpenAI正積極研發(fā)定制芯片,但明確表示不會涉足數(shù)據(jù)中心建設業(yè)務。
這場訪談也揭示了"后Transformer時代"的激烈競爭態(tài)勢。2023年底,Albert Gu和Tri Dao提出的Mamba架構(gòu)通過狀態(tài)空間模型(SSM)實現(xiàn)了線性時間復雜度,推理速度比Transformer快五倍。到2025年,英偉達已在新一代模型中大規(guī)模采用Mamba-Transformer混合架構(gòu),其他科技巨頭也紛紛跟進。更激進的創(chuàng)新如液態(tài)神經(jīng)網(wǎng)絡,受線蟲神經(jīng)系統(tǒng)啟發(fā),用微分方程驅(qū)動神經(jīng)元,在極小參數(shù)量下實現(xiàn)了驚人性能。
奧特曼的預言正在逐步成為現(xiàn)實。從LSTM到Transformer的每次架構(gòu)革新都帶來了數(shù)量級的性能提升,并催生了定義時代的技術公司。隨著"后Transformer"競賽的升溫,下一個科技巨頭或許正如奧特曼所描述的,正在某個大學宿舍里對著白板構(gòu)思改變世界的創(chuàng)意,而他們手中多了一個前所未有的工具——高度發(fā)達的AI本身。















