作者 | 高飛
來源 | 科技行者
如果說之前的“Wintel組合”代表了PC時代,“谷歌高通”組合代表移動互聯網時代,那么現在的“OpenAI英偉達”組合則代表了新AI時代。而算力又是當前最為稀缺的AI資源之一(數據同樣稀缺,下一代算法還沒有眉目),所以我就結合NVIDIA創始人兼CEO黃仁勛在中國臺灣地區的臺北國際電腦展(COMPUTEX 2024)的發言,談一下AI正在給世界帶來的五個變化。
AI是新的發動機
如果沒記錯的話,第四次工業革命的說法已經說了十年,但大家之前沒感受到這個新工業革命到底“新”在哪。但ChatGPT問世,讓AI基本上通過了圖靈測試,創造了一個真正的分水嶺。生成式AI帶來的本質變化是,算力創造了一個新的發動機,也建設了一個新的AI工廠(如下圖)。
用黃仁勛的話說,最初作為超級計算機出現的設備,演化為一個高效運轉的人工智能數據中心,它不斷地創造產出,不僅生成Token,更是一個創造價值的人工智能工廠,“這些Token可以是單詞、圖像、圖表、表格,甚至是歌曲、文字、語音和視頻。Token可以代表任何具有明確意義的事物,無論是化學物質、蛋白質、基因,還是天氣模式”。
生成式AI讓計算到產出的路徑極大程度縮短。原來的產出工作流是七個步驟:電能-計算-系統-編程-軟件-應用-產出,現在直接縮短成三個步驟:電能-模型-智能,(雖然最終也需要Prompt提示詞才能使用模型,但是提示詞是基于自然語言的),這讓計算機的價值很容易被使用,也很容易被衡量。這和之前的蒸汽機、內燃機、電動機的道理是一樣的,電能直接轉化為生產力,只不過AI引擎輸出的不是動力,而是腦力。
圖片出處:Shaw Talebi——如何從頭開始構建LLM
軟件業消亡或者重生
操作系統是人類操作計算機的底座,我一直有個看法,操作系統的更新換代,就是交互界面的更新換代,大概每20年就有一代。IBM PC開啟的DOS,以鍵盤為交互方式;微軟開發的Windows,由鼠標為交互方式;蘋果創造的iPhone時刻,是由手指觸屏為交互方式;現在看來,以OpenAI開啟的自然語言交互,是真正的交互方式換屆。
1981 年的原始 MS-DOS 廣告
但是,這個變革不止改變了操作系統的邏輯,還改變了軟件業的邏輯。此前的操作系統,是由軟件和編程語言原來承載了計算機和人類之間的信息交換,現在則改為由模型+提示詞。
黃仁勛也提到,“應用層也因此發生了變革:過去,應用程序是由指令編寫的;而現在,它們通過組裝人工智能團隊來構建。雖然編寫程序需要專業技能,但幾乎每個人都知道如何分解問題并組建團隊。因此,未來的每家公司都會擁有一個龐大的Nim集合。你可以根據需要選擇專家,將它們連接成一個團隊”。
這也讓我想起OpenAI創始成員,也是前特斯拉人工智能主管Andrej Karpathy在2023年1月5日發的一個推文“最熱門的新編程語言是英語”。(Nim是一個集成化的人工智能容器解決方案,包含了龐大的軟件集合,如CUDA、CUDACNN和TensorRT,以及Triton推理服務)
截圖來自OpenAI創始成員、前特斯拉人工智能主管Andrej Karpathy推特,他在2023年1月5日發的一個推文講到“最熱門的新編程語言是英語”
如果說SaaS方式消滅了傳統軟件的身體,是軟件業的自我革命。那么模型即將要消滅的,是傳統軟件業的靈魂。軟件這個概念永遠存在,但是外在和內在都被新技術撕碎。接下來,軟件業要么逐漸消亡,要么以新的方式重生。
網絡就是計算機(這次是真的)
“網絡即計算機”是Sun公司的第21號員工約翰·蓋奇在 1984 年為公司創造的一句口號。Wired雜志將這句話稱為“硅谷的真理”。
不過當時約翰·蓋奇的靈感來自于互聯網,他在2019年的一個播客節目中說,當Sun推出第一臺科學工作站時,它們并不是非常強大的計算機,但是有一個巨大的屏幕,可以到互聯網,被設計為超級計算機的補充組件。但是現在的“網絡就是計算機”,計算機不是互聯網,是超計算機本身。
因為,現在AI算力的之所以能實現新的指數級飛躍,靠的不再是傳統的芯片制程和芯片內的架構創新,而是芯片間的互聯網,或許我們可以稱之為internet of chips(芯聯網)。由Scalling Law所驅動的AI算力需求,正在讓我們看到萬卡集群,再到未來的十萬卡,百萬卡集群,芯片所構成的網絡,形成一個巨大的計算機。所以黃仁勛說,原來一顆小小的芯片是GPU,現在一個龐大的機柜也是一顆GPU。
IBM當年說世界有五臺計算機就夠了,從模型訓練的大規模集群而言,或許未來真的只需要五臺計算機。當然,我們說的是在訓練層面、在推理層面和端側AI層面,依然是百花齊放的。
黃仁勛在演講中著重介紹了MGX系統,整個系統中,有共計72個GPU,構成了一個龐大的計算集群。這些GPU通過全新的MV鏈接技術緊密相連,又形成了一個無縫的計算網絡。“當使用ChatGPT這樣的模型時,其背后是龐大的軟件堆棧。這個堆棧復雜而龐大,因為模型擁有數十億到數萬億個參數,且不僅在一臺計算機上運行,而是在多臺計算機上協同工作”。
智能的第一次并行
從計算機的并行,我們可以延續談一下智能的并行。
軟件工程領域有一個著名的布魯克斯定律(Brooks' Law),說向一個已經延遲的項目中增加人力,往往會使項目更加延遲。即隨著團隊規模的擴大,溝通成本和管理開銷也會增加,從而可能抵消增加人力帶來的收益。
在社會心理學領域,也有一個社會性懈怠(Social Loafing),當人們在團隊中工作時,個人的努力程度會比單獨工作時降低,是因為個人在團隊中感到責任分散,或者認為自己的貢獻不重要。
所以,兩個員工協同辦公,效率未必能上升一倍,如果安排不當,甚至效率會降低。我想這也是996的本質原因,讓一個人拼命干,比多個人合作干效率要高得多。其原因除了心理學因素之外,還在于人類間的數據無法共享,多個人難以處理同一個子項目,背后是智能無法并行。
但是這個問題對于大模型而言并不存在,萬卡、百萬卡互聯的計算機,就是為處理共享數據而生的,實現了智能的并行。當然,智能的并行(數據、管道、張量)也存在技術難度,如何優化卡間通信,實現信息對齊?
黃仁勛解釋其中的難題在于延遲,通信模式的特點是高度突發性的流量,重要的不是平均吞吐量,而是最后一個到達的數據,因為如果你正在從所有人那里收集部分結果,并且我試圖接收你所有的部分結果,如果最后一個數據包到晚了,那么整個操作就會延遲(木桶原理)。
總之,AI可以一起工作,一個AI會,就是所有AI會,從而實現更大的智能程度。但是人類不能,三個臭皮匠也無法抵得上一個諸葛亮,某種程度三百個也不行。
大模型的下一步是物理世界
現在的大語言模型,一定不是AGI的終點。我們可以做一個“第一性原理”思考,真實世界有兩個部分組成,一個是頭腦世界,基于無形的信息;一個物理世界,基于有型的實體。
現在的LLM,只是在頭腦信息層面運行,沒有觸及實體世界。AI(特別是生成式AI)和實體世界的接觸,還需要人作為界面,只要這一點沒有改觀,AI就很難說是完全體(這也是Meta首席人工智能科學家楊立昆Yann LeCun抨擊語言模型路線的原因,斯坦福大學教授李飛飛也認為語言模型多少參數都無法突破這一本質)。
黃仁勛的解決方法是物理人工智能,“物理人工智能正引領人工智能領域的新浪潮,它們深諳物理定律,并能自如地融入我們的日常生活。為此,物理人工智能不僅需要構建一個精準的世界模型,以理解如何解讀和感知周圍世界,更需具備卓越的認知能力,以深刻理解我們的需求并高效執行任務”。
而對于物理智能而言,一個很重要的智能載體,可能是人形機器人。黃仁勛在今年NVIDIA GTC大會和Computex上的演講,都以人形機器人亮相為結尾。當然,這其中也存在重要的商業機會,“與其他類型的機器人相比,訓練人形機器人需要大量的數據。由于我們擁有相似的體型,通過演示和視頻能力提供的大量訓練數據將極具價值”。
判別式AI時代,重頭戲是視覺;生成式AI時代,重頭戲是語言;AGI時代,或許是兩者兼有(最終像圣斗士一樣實現阿賴耶識,突破超越人類的既有感知)。
好文章,需要你的鼓勵
在今年I/O的第二天,谷歌在美國總部(Googleplex 2000)組織了一場小范圍專訪,包括谷歌母公司Alphabet兼谷歌CEO桑達爾·劈柴(Sundar Pichai)在內的四位核心管理層,接受了包括科技行者Techwalker、CNBC、《朝鮮日報》、意大利紙媒《La Repubblica》、巴西紙媒《Folha de S. Paulo》、英國電視臺等全球媒體的提問。