谷歌為什么又行了?

0 評論 610 瀏覽 0 收藏 21 分鐘

從Gemini的快速用戶增長到Nano Banana在圖像生成領域的卓越表現(xiàn),再到Veo3在視頻生成中的統(tǒng)治級實力,谷歌不僅在技術上取得了顯著進步,還在用戶體驗和產(chǎn)品整合上展現(xiàn)了精準的洞察力。此外,谷歌在算力和數(shù)據(jù)方面的深厚積累,為其AI技術的持續(xù)發(fā)展提供了堅實的基礎。

蘋果重啟與谷歌的合作,考慮使用的Gemini來為改版后的Siri提供支持。

彭博新聞社報道稱,預計的 Siri 升級版(目前計劃于 2026 年發(fā)布 )可能會以定制版 LLM 的形式推出,該版本由谷歌的 Gemini 聊天機器人提供支持。

這是蘋果數(shù)月來探索外部合作伙伴關系的最新舉措。這筆潛在的“世紀聯(lián)姻”一旦達成,將不僅是Gemini技術實力獲得業(yè)界最高認可的標志,更是其影響力橫向擴張至數(shù)億iPhone用戶的里程碑事件。

這將為谷歌AI技術開辟前所未有的廣闊應用場景和數(shù)據(jù)反饋環(huán)路,為未來的商業(yè)化,包括可能的API授權和訂閱服務,打開了一道全新的大門。試想如果谷歌能將Gemini的能力接通安卓和iOS兩大生態(tài),將會迅速讓自己在用戶規(guī)模上大大縮小和OpenAI的ChatGPT的差距。

而對于蘋果來說,和谷歌的合作能夠延續(xù)在搜索業(yè)務上的良好關系,讓iOS生態(tài)在底層上首次接入大模型,為廣達的iOS用戶提供最領先的技術帶來的體驗和生態(tài)革命。

而一年多以前,當蘋果傳出和多家大模型供應商商談合作的時候,OpenAI是當時被外界認為最有可能成為蘋果客戶的一方。谷歌因為模型能力一般,發(fā)布會翻車等負面因素,在蘋果眼里一直不是第一順位的選擇。

時隔一年多,為什么谷歌又能被蘋果看上了呢?

01

最重要的原因肯定是Gemini在最近一年多取得了長足的進步,不論是性能上還是用戶數(shù)目上大幅增長。

在LLM Arena上,在多項排名中Gemini都處于絕對的第一梯隊。

特別是多模態(tài)方面,作為原生的多模態(tài)大模型,Gemini也一直是性能最好的模型。

而如果說蘋果的合作意向還停留在「傳言」階段,那么Gemini在用戶增長上的表現(xiàn)則是實打實的「硬數(shù)據(jù)反擊」。

根據(jù)a16z最新發(fā)布的報告,Gemini正在以驚人的速度追趕ChatGPT。

Google的Gemini在網(wǎng)站流量方面排名第二,其網(wǎng)站吸引了約ChatGPT 12%的流量。在移動端,差距縮小了:Gemini達到了ChatGPT大約一半的活躍用戶數(shù)。

更令人矚目的是增長數(shù)據(jù)。Gemini的增長軌跡非常陡峭,網(wǎng)站訪問量從2月份的2.84億次增長到7月份的7億次,而ChatGPT為57.2億次。

Google在前50名網(wǎng)站中還有其他三個工具:AI Studio(第10名)、NotebookLM(第13名)和Google Labs(第39名)

截至2025年7月,Gemini已經(jīng)達到4.5億月活用戶,相比5月份的4億用戶更是實現(xiàn)了顯著增長。

Gemini在權威編程能力測試和AI IQ榜單中也均名列前茅。Gemini 2.5 pro的IQ排名在AI中最高,智商高達 137,這一成績表明,Gemini 2.5 Pro 處理邏輯推理、抽象思維、模式識別等復雜任務的能力,已經(jīng)可以與人類社會最頂端的少數(shù)人相媲美,不再僅僅是一個模仿和重復的程序,而是展現(xiàn)出一定程度接近人類高階智慧的解決問題能力。

其代碼編寫和多模態(tài)理解能力也廣受贊譽。

從技術評測到實際用戶采納,Gemini了證明其作為新一代AI基礎設施的領導地位,和OpenAI的ChatGPT差距已經(jīng)越來越小。

而除了在大模型領域,Gemini正在加速追趕ChatGPT,谷歌正在以“全火里覆蓋”的方式正在讓自己的產(chǎn)品和技術徹底革新AI應用的各個賽道。

02

2025年8月,AI生圖圈突然被一個神秘的模型攪得天翻地覆——“Nano Banana”。

起初,沒人知道這個奇怪代號背后是誰家的產(chǎn)品,但它在各大AI競技場上的表現(xiàn)讓所有人都瞪大了眼睛。

直到Google揭曉答案:Nano Banana正是Gemini 2.5 Flash Image的代號。

其全新推出的圖像生成模型Nano Banana目前已迅速晉升為生圖圈的“當紅炸子雞”。

Nano Banana以其卓越的圖像生成質量、細節(jié)把控能力和用戶友好的操作界面,在與主要競爭對手的直接對比中脫穎而出。

與傳統(tǒng)圖像生成工具不同,Nano Banana展現(xiàn)出了對視覺邏輯的深度理解。它不再滿足于單純的「畫圖」,而是能夠理解圖像中的空間關系、物體屬性,并在保持邏輯一致性的前提下完成復雜的編輯任務。

其生成圖像的逼真度、風格多樣性以及對復雜提示詞的理解能力令人驚嘆,許多用戶將其描述為“瘋狂”,這也正是它能夠得以病毒式傳播的原因。

Nano Banana最大的突破在于其自然語言理解能力的提升。用戶可以用日常語言描述修改需求,模型能夠精準理解并執(zhí)行復雜的圖像編輯任務。

這種交互方式的革新,讓圖像編輯從專業(yè)技能變成了人人都能掌握的日常工具。

Nano Banana不僅有效解決了用戶在使用AI圖像生成工具時遇到的痛點,同時深度融入了Gemini的圖像編輯功能,這使其能夠直接在現(xiàn)有圖片上進行復雜的操作和修改,極大地提升了用戶的工作流效率。

Nano Banana的成功不僅是模型規(guī)模的勝利,更是谷歌在用戶體驗和產(chǎn)品整合上的精準洞察。

在視頻生成領域,谷歌同樣展現(xiàn)出統(tǒng)治級的實力。其最新的視頻AI模型Veo3正以其驚人的視頻生成質量,成為視頻AI領域的“王者”。

它最大的創(chuàng)新在于實現(xiàn)了高保真的視頻與音頻同步生成,包括對話、音效與環(huán)境聲音的完美結合。業(yè)界對Veo 3的評價普遍很高,認為它已經(jīng)從實驗性工具演變?yōu)榭梢约{入專業(yè)制作流程的實用工具。

現(xiàn)實中,越來越多的內容創(chuàng)作者開始將Veo 3納入自己的制作workflow,用于快速原型制作和創(chuàng)意驗證。

Veo3生成的視頻內容極其逼真、流暢且富有創(chuàng)意,其質量已經(jīng)達到了足以顛覆傳統(tǒng)視頻制作流程的水平。

Veo3的出現(xiàn),無疑為影視制作、廣告創(chuàng)意和數(shù)字內容產(chǎn)業(yè)帶來了革命性的沖擊和無限的創(chuàng)作可能。在視頻長度、分辨率、一致性維護等關鍵指標上Veo3都有顯著提升,在音畫同步方面的表現(xiàn)尤其突出,目前在行業(yè)內難有匹敵。

與此同時,Nano Banana和Veo3項配合的工作流更是為彼此幾何級數(shù)地助力。

Veo 3 現(xiàn)已登陸 Google Photos,更進一步打出了谷歌的平臺實力,大大改進了原有的照片轉視頻功能。谷歌表示,現(xiàn)在該功能可以用來“將靜態(tài)圖像轉換為更高質量的短片”。

更具里程碑意義的是,DeepMind推出的Genie3已成為世界模型的全新標桿。

Genie3作為一款分辨率720p的通用型世界模型,能夠通過文本提示詞生成并模擬長達數(shù)分鐘的互動式3D虛擬環(huán)境,其多樣性和沉浸感前所未有,環(huán)境還會對用戶的操作做出反應,甚至還可以輸入新的提示來改變 3D 環(huán)境。

它能從圖像、文本、視頻等多種輸入中學習,并生成可交互、具有物理規(guī)律的“世界”。

Genie 3的意義遠不止生成虛擬世界。它為訓練更通用的AI Agent打開了新的可能性——能夠「憑空」創(chuàng)造出無窮無盡、風格各異的訓練環(huán)境。

這不僅是AI在理解、預測和創(chuàng)造復雜世界方面的一次巨大飛躍,更預示著未來虛擬現(xiàn)實、游戲開發(fā)乃至通用人工智能(AGI)的無限可能,為構建更智能、更互動的數(shù)字宇宙奠定了基礎。

03

看到全力出擊的谷歌,連馬斯克也再次不得不感嘆,谷歌將再次領跑AI時代。

他今年8月發(fā)推認為,基于谷歌現(xiàn)在有全世界最大的算力基礎能力和數(shù)據(jù)優(yōu)勢,它是AI行業(yè)中最有可能成為領袖的公司。

而馬斯克的觀點似乎也為尋求谷歌如何完成AI逆襲提供了一個基本的思考框架——算力,數(shù)據(jù)是決定一家AI公司是否能夠高速長期發(fā)展的基本前提。

谷歌早在10年前就啟動了專門針對AI任務設計的計算芯片TPU的研發(fā),經(jīng)歷了10年的不斷迭代發(fā)展,谷歌的TPU已經(jīng)成為目前世界上最先進的AI芯片。因為它專門針對AI計算進行開發(fā),它的能耗效率甚至超過了英偉達的GPU。

而且谷歌的TPU集群是除了英偉達的GPU之外能規(guī)模最大的能夠大規(guī)模部署并進行AI訓練和推理的AI芯片。

而且在之后的迭代中,谷歌多年積累的AI芯片設計能力能夠針對自己的業(yè)務和AI行業(yè)發(fā)展的最新趨勢進行更新迭代,充分保證了谷歌未來不會處于算力焦慮之中。

當英偉達的最高性能GPU依然供不應求,被所有的科技大廠瘋搶時,當OpenAI為了緩解自己的算力渴求而到處新建數(shù)據(jù)中心,尋求更多的算力供應時,谷歌的TPU集群提供的算力不但已經(jīng)能夠滿足自己業(yè)務的AI算力需求,甚至還出現(xiàn)了富余。9月3日,據(jù)海外媒體報道,谷歌正在和一些小型的云供應商進行合作,將原本只供自用的TPU算力開始向第三方進行銷售。

而作為對比,馬斯克也試圖自己研發(fā)AI超算芯片,但是在經(jīng)過多年嘗試未果之后,只能放棄研發(fā),采用英偉達的GPU作為AI算力的基礎設施。這樣未來在算力的成本和效率以及自主性方面和有自給自足能力的谷歌相比將會處于劣勢。

谷歌始于10年前的AI硬件布局,開始到了收獲的時間。

要滿足Gemini日益增長的用戶量背后帶來的大規(guī)模推理需求,還要能同時訓練新的模型,不斷更新大模型能力,還要能支撐視頻模型,生圖模型的推理和研發(fā),如果谷歌沒有夯實的算力基礎,是完全不可能做到。

就像一家面館,如果你的面粉供應嚴重依賴市場上非常槍手的第三方供應商的供貨,你很難想象它能不斷推出新的品類甚至開新的分店。而谷歌能夠自給自足的算力,就是它能同時多面出擊,持續(xù)迭代模型能力,研發(fā)新模型的底層保障。

除了算力優(yōu)勢之外,谷歌AI業(yè)務另一條深不見底的護城河是他的數(shù)據(jù)優(yōu)勢。

多年的搜索領域霸主地位讓谷歌積累了海量且珍貴的用戶數(shù)據(jù)。而且作為全世界最大的視頻平臺Youtube的母公司,它能觸及到世界上規(guī)模最大的多模態(tài)數(shù)據(jù)。可以說谷歌發(fā)展多年的傳統(tǒng)業(yè)務,為它能夠在AI時代全力沖刺提供了一個取之不竭,用之不盡的數(shù)據(jù)金礦。

這可能在某種程度上也解釋了為什么在多模態(tài)AI領域的競爭中,谷歌是發(fā)力最晚,但取得的成績最為顯著的公司。

而除了用于訓練AI模型的數(shù)據(jù),谷歌Chrome和安卓生態(tài)能夠幫助谷歌及時將AI能力運用到最廣泛的c端市場。海量用戶在深度使用時產(chǎn)生的數(shù)據(jù)為谷歌進一步優(yōu)化自己的AI服務體驗,找到用戶使用中的痛點,提供了依據(jù),從而在未來模型的開發(fā)中,能夠做出更有針對性的,優(yōu)化和功能選擇。

Nano banana的成功某種程度上就是谷歌能夠敏銳捕捉到用戶需求,從而在模型層面進行產(chǎn)品化設計的一個最新的例子。

如果谷歌未來能夠繼續(xù)深度的將用戶使用AI過程當中呈現(xiàn)出來的需求,通過自己的AI服務進行滿足,相信谷歌一定能找到一條不同于其他企業(yè)的,更好的將AI能力服務于廣大用戶的研發(fā)和迭代路徑。

這也許也是蘋果選擇谷歌作為自己AI服務供應商一個很重要的考量。畢竟只有谷歌現(xiàn)在擁有在設備端將AI服務提供給接近于蘋果用戶量級的客戶群體的經(jīng)驗。

而除了算法和算力這兩哥谷歌所擁有的巨大優(yōu)勢之外,谷歌反擊背后還離不開多年來積累的人才優(yōu)勢。

隨著硅谷AI人才的爭奪進入到白熱化階段,手握大量資金算力以及豐富的用戶數(shù)據(jù)的谷歌,對于人才的吸引力來說是毋庸置疑的。人才能給AI業(yè)務發(fā)展帶來的最重要的因素就是算法上的創(chuàng)新。硅谷多年來積累下來的AI人才的儲備和管理經(jīng)驗,以及對新入行的AI人才的吸引力,使得他們一直以來都是行業(yè)的人才智力高地。

比如在OpenAI帶隊開發(fā)出Sora的Tim Brooks,在2024年10月就加入谷歌,負責開發(fā)新的世界模型。而最近放出的Genie 3就是他們團隊的最新作品。

而在硅谷的AI人才搶人大戰(zhàn)中,谷歌為了避免核心人才的流失,開出了2000萬美元的年薪。而除了令人咋舌的薪資,谷歌對這樣的頂尖人才的吸引力,還是在于他們能夠給項目提供行業(yè)里最好的算力和數(shù)據(jù)保障,能夠幫助頂尖人才做出行業(yè)里最有影響力的成果。

而在組織管理層面,谷歌也在不斷優(yōu)化,將人才的戰(zhàn)斗力系統(tǒng)性的放大。

而在去年谷歌將DeepMind和Google Brain兩個研究型機構合并統(tǒng)一為AI戰(zhàn)略的中樞之后,原本更偏向于科研機構的DeepMind現(xiàn)在已經(jīng)成為了一個生產(chǎn)AI應用的創(chuàng)新工廠。

去年10月,Gemini品牌化之后,谷歌把 Gemini App 團隊并入 Google DeepMind;同時把 Assistant 的設備側 并到 Platforms & Devices。前者確?!皯脠F隊成為模型一方的直接客戶”,反饋與數(shù)據(jù)更快回流;后者則讓端側能力(Android/芯片/硬件)圍繞“AI 本地推理與協(xié)同”一體化推進。2025 年移動端用戶從 Assistant 遷移到 Gemini,更是把體驗、數(shù)據(jù)和增長目標統(tǒng)一到了一個坐標系內。

谷歌作為近些年來論文產(chǎn)出最高的組織,為了應對AI行業(yè)的競爭已經(jīng)將AI論文的發(fā)表標準進行了更改,如果論文成果被評估為能為谷歌帶來競爭優(yōu)勢,論文可能將被谷歌雪藏,避免公開Transformer這樣具有劃時代意義的科研成果,為競爭對手做嫁衣的情況再次出現(xiàn)。

也許未來,谷歌公開發(fā)表的AI論文會越來越少,但是像nano banana這樣的具有優(yōu)秀創(chuàng)新基因的AI產(chǎn)品會大量出現(xiàn)。

而作為過去20年AI領域投入最大,為人類AI發(fā)展貢獻最多,現(xiàn)金流最為充沛的科技公司,谷歌在AI-First之后,將逐漸成為科技大廠中AI改革的標桿,值得更多的關注和期待。

本文由人人都是產(chǎn)品經(jīng)理作者【字母榜】,微信公眾號:【字母榜】,原創(chuàng)/授權 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!