作者|周雅
有AI的地方,就是一個江湖。
還是那個圓形劇場(Shoreline Amphitheatre),五月的氣候嗖嗖灌著穿堂風,但現場氣氛絲毫未受到影響。
反倒是因為在24小時之前,OpenAI帶著GPT-4o來了場截胡式官宣,把谷歌的這場I/O架在一個非常尷尬的位置,此刻大家似乎都在等著看谷歌“閣下又該如何應對”。
于是谷歌用了整場兩小時的時間,來了場特種兵式的發布,一次性回應所有的聲音。
如果用一個詞形容今年的I/O,那一定是「全」,你能想到的幾乎所有AI場景,谷歌這次都有涉及到:
從基礎模型Gemini的性能增強(包括輕量級模型Gemini 1.5 Flash、200萬tokens超長上下文的Gemini 1.5 Pro);到開源模型Gemma的進展(劇透下一代開源模型Gemma 2);到支持超過1分鐘、1080P的視頻生成模型Veo;與ChatGPT-4o一樣“長了眼和嘴”的擁有視覺語音交互功能的Gemini Live;還有文生圖模型imagen 3;AI音樂創作工具Music AI Sandbox;以及向其他AI Agent貼臉開大的Project Astra。
這么全,又這么多首發,很難不讓人猜想,谷歌難道一直在憋大招?
留意到此前Madrona Venture Group合伙人、Amazon Web Services前人工智能高管Jon Turow說,谷歌這次的發布時間表較慢是可以理解的,因為谷歌 "比其他公司(如OpenAI)承擔更大的責任",谷歌是在自家有著數十億用戶的現有業務上做文章,不是從零開始,所以更慎重。“當一個產品達到其他公司(如OpenAI)可以發布的標準時,谷歌也不能草率地發布。"
總之,“AI全家桶”這個名號,谷歌這次實至名歸。
Gemini的完全形態:多模態、長上下文、AI Agent
當谷歌CEO桑達爾·皮查伊上臺,好戲正式開始。
谷歌CEO桑達爾·皮查伊(Sundar Pichai)
“Gemini”“Gemini”“Gemini”這恐怕是整場出現頻率最高的詞,作為谷歌目前最核心的基礎模型,Gemini盡顯谷歌在AI時代的野心。
1年前,Gemini問世時谷歌對它定位就很明確:多模態模型。在那之后,Gemini就朝著該定位,開始火速迭代。去年12月,谷歌推出Gemini 1.0,共有三個版本:Ultra、Pro 和 Nano。兩個月后,谷歌又推出Gemini 1.5 Pro,有了更強的性能、100萬token的長上下文。
“谷歌正式邁向Gemini時代(Google is fully in Gemini era)”,皮查伊直奔主題說:
目前有超過150萬開發者在工具中使用Gemini,有20億用戶產品在使用Gemini,而谷歌推出安卓和iOS上可用的Gemini Advanced在發布三個月后就已經收獲超過100萬用戶。
此外,Gemini 1.5 Pro還從原本的100萬token升級到200萬token,這意味著能處理1500頁PDF、3萬行代碼、或1小時視頻文件,即日起Gemini 1.5 Pro將通過Gemini Advanced向全球150多個國家的用戶正式推送,且支持35種語言。
Gemini 1.5的 200 萬token能力橫評對比
而在現場,Gemini又有更新:谷歌發布針對端側的模型Gemini 1.5 flash,同樣有100萬和200萬token版本。相比此前的Gemini 1.5 Pro,該模型的特點是輕量級:更快速高效、多通道推理、長上下文。
價格方面,Gemini 1.5 Pro為7美元/100萬tokens,對于128k以下的輸入,將降價50%至3.5美元/100萬tokens,比 OpenAI 的 GPT-4o 便宜約 30%;Gemini 1.5 Flash的價格為0.35美元/100萬tokens,比OpenAI的任何大模型都便宜。
除了Gemini本身的更新之外,更重要的是,谷歌把Gemini植入到所有產品中,包括搜索、地圖、照片、Workspace、安卓等等。
· 搜索大不同
作為搜索巨頭,要想讓Gemini成長,谷歌自然不會放過搜索這個現成的數據庫,所以,你現在在谷歌的每一次搜索,背后都有Gemini在工作。這個功能被稱為「AI Overview(AI概述)」,是指AI會根據你的搜索,給出最佳答案,提升搜索體驗。
相比傳統的搜索引擎,AI Overviews功能將為用戶呈現出包括觀點、見解、鏈接的完整答案。谷歌強調其三大獨特優勢:實時信息、排名和質量體系、Gemini能力。谷歌引入多步推理功能(Multi-step reasoning),把大問題一步步分解,并按優先順序提供。
例如,用戶想找一個合適的普拉提工作室,需要考慮時間、價格、距離等因素,就可以在谷歌搜索輸入:“在波士頓找到最好的瑜伽工作室,并顯示優惠詳情,以及從我家過去的步行時間”。最終,谷歌搜索將提煉整合出信息,并呈現在AI Overviews中,為用戶節省時間。
· 今夏上線的Ask Photos
當然,不僅谷歌搜索有Gemini,照片搜索中也有Gemini。皮查伊現場演示了Gemini在Google Photos(谷歌相冊)里如何整活兒,比如你在停車場給車拍了照之后,找不到車停哪兒時,可以直接問 Gemini “我的車在哪”,它就能幫你自動識別相關照片中的信息,告訴你車的具體位置。
這個功能被稱為「Ask Photos」,將于今年夏天正式發布。
而正是因為Gemini的多模態和“長”上下文,Ask Photos不僅能搜索照片,甚至能理解搜出來的內容。比如,你在回憶女兒Lucia的高光時刻,可以直接問Gemini:“Lucia是啥時候學會游泳的?”甚至問更復雜的問題:“Lucia的游泳進步了奪少?”
在這背后,Gemini可以根據“Lucia在游泳池里游泳,到在海洋里浮潛,再到游泳證書上的文字和日期”一系列內容,最后告訴你答案。
這一切,都是因為Gemini的兩大能力——多模態+長上下文。“多模態可以解鎖更多知識,并輸出更多答案。而長上下文就能輸入更多信息:數百頁的文本,數小時的音頻,1小時的視頻,完整的代碼庫……甚至,如果你愿意,引入96個Cheesecake Factory菜單(編者注:美國的芝樂坊餐廳)也不是不可以。”皮查伊開玩笑說。
有了上述倆特長,Gemini也被植入到谷歌的辦公套件中。包括在Google Meet中生成會議紀要,在Gmail的所有郵件中提取關鍵信息,自動整理郵件中的表格,甚至生成一張數據分析表格。
當然,僅僅是多模態+長上下文還不夠,谷歌為Gemini注入了最后一股力量:AI Agent(AI智能體)。
皮查伊舉了一個“網購”的例子。買鞋是件很有趣的事,但是當鞋子不合腳的時候,退貨就沒那么有趣了。而因為有了AI智能體,Gemini可以替你完成所有的退貨步驟:在收件箱里搜索收據-從購買記錄里找訂單號-填退貨單-安排快遞上門取貨,一氣呵成。
至此,Gemini的終極形態初現——多模態、長上下文、AI Agent。
Project Astra扛大旗:看似Agent,實則通向AGI
第二位上場的嘉賓,作為AI界大神級的人物,Google DeepMind創始人Demis Hassabis首次出現在I/O的舞臺上,收獲了臺下陣陣掌聲。
Google DeepMind創始人Demis Hassabis
自從被谷歌收購之后,DeepMind早已成為谷歌的左膀右臂。去年,Google DeepMind實驗室成立,將兩家公司的AI人才整合,也收獲了不少成績,比如上周問世的用于預測幾乎所有生物分子結構和相互作用的AlphaFold 3就是其中之一。
與現場高漲氣氛相呼應的,Demis Hassabis的發布也相當轟動,其中就包括一個AI Agent(AI智能體)新項目——Project Astra。
從現場的演示視頻來看,其中的一幕是,演示者拿著手機,讓AI實時收集周邊環境信息,然后在辦公室轉了一圈突然問:“你記得我的眼鏡在哪里嗎?”只見它立刻回答:“記得,在桌子上的紅蘋果旁邊。”
要知道,在實際場景中,哪怕兩個人類對話,也可能會忽略這些細節,但演示中的AI卻精準捕捉到了眼鏡的位置。這種強大的通用語言與環境理解能力,瞬間讓現場響起雷鳴掌聲。
Hassabis特別提到,這些演示并非“僅供參考”的演示效果,都是在一次性拍攝中實時捕捉。他坦言,其中最受挑戰的是“將響應時間縮短為對話式的內容”,為此,DeepMind在Gemini的基礎上開發了原型Agent,通過連續編碼視頻幀、將視頻和語音輸入組合到事件時間線中并緩存,以確保能快速有效調用,從而更快地處理信息。
“過去幾年里,我們一直在改進模型的感知、推理和對話方式,使交互的速度和質量更自然。”Hassabis說,有了Astra項目,大家未來可以在手機或眼鏡上擁有專業的AI助手。
伴隨著Astra的發布,Hassabis也強調了他們的最終目的——AGI。“計算機能像人一樣思考,這件事從小就讓我著迷,這也是我研究神經科學的原因,2010年我創辦DeepMind時,終極目標就是AGI,我相信如果負責任地開發這項技術,它對人類的影響將會是無比深遠的。”
當然,除了對AGI的探索之外,谷歌還介紹了在多模態領域的新進展,從圖像、到音頻、到視頻這三個主要內容源全面出擊:包括能夠生成超過1分鐘、1080P 的視頻生成模型Voe、文生圖模型Imagen 3、以及面向專業音樂創作者的AI音樂創作工具 Music AI Sandbox。
由谷歌的文生圖模型Imagen 3生成
從Voe的演示視頻來看,它能理解很多電影術語,如“延時”“景觀航拍”“時光倒流(Timelapse)”。谷歌指出,Veo 建立在多年的生成視頻模型的基礎上,包括生成查詢網絡(GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet、Lumiere,以及Transformer 架構和Gemini。未來,谷歌還將把Veo的一些功能引入YouTube Shorts和其他產品。
而在AI音樂創作方面,谷歌通過Music AI Sandbox跟音樂家合作,音樂家可以把一段哼唱或彈奏的靈感片段發給AI,AI生成一首歌或旋律。
有“軟”也有“硬”
作為專門面向開發者的I/O,除了軟件的密集發布之外,硬件的同步更新也一直是I/O的保留項目。
這次,谷歌發布了第六代 TPU 硬件Trilium,計算能力相比前代提升 4.7 倍,預計將在 2024 年底面向用戶推出,谷歌這次發布的Veo、Imagen 3、Gemini 1.5 Pro 等幾乎所有產品,都是基于這款新硬件。
十多年前,谷歌就意識到,需要一款用于機器學習的芯片。2013年,谷歌開始開發世界上第一款專用AI加速器TPU v1,隨后在2017年推出了第一個云TPU。如果沒有TPU,谷歌大量的服務(如實時語音搜索、照片對象識別、交互式語言翻譯),以及最先進的基礎模型(如Gemini、Imagen和Gemma)將不可能實現。
當然,除了硬件,安卓系統也不能忽略,尤其是 Gemini 的融入,是否會讓安卓系統煥然一新?
這次 Gemini 在 Android 上的最新進展是——Gemini Live,主打一個用文本、語音或影像等多模態的交互體驗,在實際對話過程中,你甚至可以像與真人對話一樣,通過打斷對話、提出新問題的方式來更高效的溝通。并且,谷歌透露,基于 Project Astra 實現的攝像視頻識別功能也將在今年年內發布,所以用戶可以打開攝像頭,讓AI看見周圍的世界并做出實時響應。
在演講接近尾聲時,皮查伊提到此前I/O玩過的一個舊梗:“今天肯定有人數,我說了多少次AI?”。
“不用數了,因為Gemini數完了。”他接著說。
然后大屏幕顯示120次。
“我竟然說了這么多次AI。”皮查伊笑道。
在皮查伊說出這句話的同時,屏幕上的數字變成了 121。
現場笑聲一片。
整場圍觀下來,此次I/O密集的發布,與其被網傳的說是競爭壓力下的緊迫感,不如看成是面向AI變革下的一種隨時準備好的從容。
在這場活動結束的數小時后,谷歌玩了個“AI點評AI”:
谷歌用剛剛發布的Astra,解說此前OpenAI發布會上現場演示的ChatGPT-4o。(也就是用谷歌的AI去評判OpenAI的AI)
從視頻來看,效果拉滿。Astra站在上帝視角,作為觀察者,準確解讀了被觀察者ChatGPT-4o的動作,預判后者行動。
最有意思的來了,當01分02秒時,Astra提前解出方程,然后說,“讓我們看ChatGPT-4o能不能算出來”(帶著傲嬌氣),不過,接下來在02分20秒時,Astra又開啟了夸夸模式,把氣氛拉了回來。
看完之后,一句話出現在我的腦海里:
“人類總是互相競爭,但AIs help AIs?”
好文章,需要你的鼓勵
在今年I/O的第二天,谷歌在美國總部(Googleplex 2000)組織了一場小范圍專訪,包括谷歌母公司Alphabet兼谷歌CEO桑達爾·劈柴(Sundar Pichai)在內的四位核心管理層,接受了包括科技行者Techwalker、CNBC、《朝鮮日報》、意大利紙媒《La Repubblica》、巴西紙媒《Folha de S. Paulo》、英國電視臺等全球媒體的提問。