а√天堂8中文,天堂а√在线中文在线最新版,好吊色欧美一区二区三区四区

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

Token的成本下降10倍，但大模型公司卻離盈利越來越遠

柳胖胖

2025-09-15

0 評論 948 瀏覽 2 收藏

19 分鐘

模型越來越便宜，為什么公司卻越來越虧？這篇文章用通俗語言講清楚AI行業(yè)的“燒錢邏輯”，帶你看懂那些看似免費、實則昂貴的技術(shù)背后，到底發(fā)生了什么。

這篇文章的作者Ethan Ding，系統(tǒng)性地闡明了如今正在AI行業(yè)發(fā)生的一個“詭異”現(xiàn)象：雖然Token的單位成本下降了，但是由于AI能做的事越來越多，越來越被更多的人自動化地執(zhí)行更大的任務(wù)，Token的消耗爆炸了，大模型公司的虧損率都在不斷提高。

不過，這對經(jīng)歷過多次互聯(lián)網(wǎng)補貼大戰(zhàn)的中國用戶來說，卻也遠不算什么新鮮事了：業(yè)務(wù)發(fā)展越來越紅火，虧損額度越來越大，公司估值節(jié)節(jié)走高，直到……

未來，大語言模型的單位成本，也許還會一次又一次地便宜10倍，但AI付費訂閱服務(wù)依然會被榨干。

token可以理解為詞元，在大模型里，token 是分詞器把文本切分后的最小處理/計費單位，它可能是一個字、一個詞或一個標點。模型的上下文長度、生成長度、速度與費用，都按token計量。

但是，要注意它不直接等同于“字”或“詞”，拆分規(guī)則要由具體分詞器決定。

如若要了解token和大語言模型的具體工作原理，可參考這篇：OpenAI的前世今生。

如下為《ai subscriptions get short squeezed》的正文，enjoy，歡迎點贊、轉(zhuǎn)發(fā)和收藏。

想象一下：你創(chuàng)立了一家公司，但你心里清楚，消費者每月最多只愿意付20美金（如今大部分AI大模型服務(wù)的月費價格）。

沒關(guān)系，你心想，典型的VC打法——按成本價收費，為增長犧牲利潤率，CAC、LTV 之類的賬，你也都算過了。

不過接下來就有意思了，你看過 a16z 的那張圖，顯示 LLM 的成本每年下降 10 倍。

于是你心里盤算，今天每月20美金，可以做到收支平衡，等模型明年成本降低10 倍：砰的一下，利潤率就有 90% 了。

虧損只是暫時的，利潤終將到來！

這個策略，簡單到連 VC 公司新人都能懂：

第一年：每月20美金實現(xiàn)收支平衡

第二年：算力成本降低 10 倍，利潤率達到 90%

第三年：買個豪華大游艇!

這個策略，確實也說得通，因為大家都在念叨：“大模型推理的成本，每 6 個月就降至原來的三分之一，我們會沒事的?！?/p>

但是，18個月后，你的利潤率依然負得不能再負。

Windsurf 公司最終被拆解變賣，Claude Code 本周（25年8月初）也不得不下架了后來推出的每月200 美元但不限量的套餐。

公司們?nèi)栽诔掷m(xù)流血。

模型確實更便宜了，GPT-3.5 的調(diào)用費用，已經(jīng)只有原來的十分之一。但不知為何，利潤率反而更糟了。

這是不是有哪里不對？

一、沒人想要前天的報紙

GPT-3.5 現(xiàn)在雖然便宜了 10 倍，但它的吸引力也和在 iPhone 發(fā)布會上亮相的翻蓋手機一樣低。

當一款新模型作為 SOTA 問世時，99% 的用戶需求會立刻轉(zhuǎn)向它，消費者對所有產(chǎn)品都是這么做的。

現(xiàn)在來看看那些前沿模型的實際定價歷史，也就是任何時候都占據(jù) 99%用戶需求的那些模型：

看看上圖，發(fā)現(xiàn)什么了嗎？

當 GPT-4 以 $60 的價格推出時，盡管 GPT-3.5（之前的SOTA）便宜 26 倍，所有人還是一窩蜂地改用 GPT-4。

當 Claude 3 Opus 以 $60 推出時，哪怕 GPT-4 已經(jīng)降價，人們還是轉(zhuǎn)向了 Claude 3 Opus。

10 倍降成本確實存在，但只體現(xiàn)在上一代的模型上。

所以，這就是“成本會下降”戰(zhàn)略站不住腳的第一個原因：市場只對“最好的語言模型”有需求，就是這么簡單。

然而，最好的模型價格始終都差不多貴，因為那代表了當下推理所需的最大成本。

當你和 AI 相處時——無論是在編程、寫作還是思考——你總是追求最高的質(zhì)量。

沒有人會打開 Claude 想：“嗯，要不我用那個老版本幫老板省點錢?！?/p>

我們在認知上都是貪婪的生物，想要能獲得的最強大腦，特別是當我們拿自己的寶貴時間去換取它的時候。

二、Tokens的消耗，比我們想象中還要多

“好吧，但這仍然可控，對吧？我們就一直保持收支平衡不就行了？”

哎，天真的孩子。

的確，每一代前沿模型的單個Token 成本，確實也沒有變貴。

然而，出現(xiàn)更糟糕的情況：模型消耗的 Token 數(shù)量，呈現(xiàn)了爆炸式增長。

以前，ChatGPT 對一句話的問題，只回復(fù)一句話。

現(xiàn)在，Deep Research模式要花 3 分鐘來規(guī)劃，20 分鐘來閱讀，再用 5 分鐘為你重寫一份報告。

推理階段計算量的激增，導致了一個誰也沒預(yù)料到的結(jié)果：AI 能夠完成的單次任務(wù)長度，每六個月翻一番。

過去返回1000 個 Token 的任務(wù)，現(xiàn)在返回10萬個。

當你把趨勢往后推算，數(shù)字瘋狂得離譜。

目前，一次 20分鐘的“深度研究”運行成本大約是1美金。

到了 2027 年，我們將有 Agent 可以連續(xù)運行 24 小時，而不丟失上下文，再考慮前沿模型的單價并未下降，那就是一次運行要燒掉72美金。

也就是每位用戶每天72美金，而且用戶還可以同時并行運行多個這樣的任務(wù)。

一旦我們能部署 Agent 異步執(zhí)行連續(xù) 24 小時的任務(wù)，我們就不會再一次只給它一條指令然后等反饋了。

我們會批量調(diào)度它們，整個 AI 艦隊們并行地攻克問題，燒起Token來就跟不要錢似的。

顯然，這一點怎么強調(diào)都不為過：每月20美金的付費訂閱，連支撐一個用戶每天跑一次成本1美金的深度研究模式都做不到。

但，這恰恰是我們正在面對的局面。

模型能力每提高一次，都意味著它們一次能夠有效利用的算力上限又升高了。

這就像造出了一臺更省油的發(fā)動機，然后用省下的油去造了一輛巨型卡車。

沒錯，你每加侖油是能跑得更遠了，但你也會一次燒掉 50 倍的油。

這種局面，逼得Windsurf 不得不賣身，任何采用“固定費用套餐 + 高強度 Token 消耗”模式的創(chuàng)業(yè)公司，如今都正處于槍口之下。

三、Anthropic奮力應(yīng)對這場逼空

Claude Code 推出的 Max-Unlimited 套餐，可以說是我們見過的、為抵御這場風暴所做的最精密嘗試。然而，他們用盡了一切招數(shù)，但最后仍然被擊潰了。

他們的策略確實很巧妙：

1、價格定高 10 倍：當 Cursor 收 $20/月時，它定 $200/月。先留出更大的緩沖區(qū)，好讓出血開始前能多撐一陣子；

2、按負載自動切換模型：負載高時就從 Opus 模型（$75/百萬 Token）切換到 Sonnet 模型（$15/百萬），閱讀時用 Haiku 模型優(yōu)化。

就像 AWS 的彈性擴容，只不過更加用在“刀刃”上。

他們肯定把這種行為，直接寫進了模型權(quán)重里。這是一種范式轉(zhuǎn)變，后面我們大概率會更常見到。

3、把計算量轉(zhuǎn)給用戶的機器：如果用戶的 CPU 都閑著，為什么還要自己開沙箱sandboxes呢？

盡管用了這些高明的工程手段，Token的消耗仍然像超新星一樣爆炸了。

排名第一的用戶，消耗了100億個 Token，相當于在一個月里輸出了1.25萬本《戰(zhàn)爭與和平》的內(nèi)容。

怎么做到的？就算每次連續(xù)運行 10 分鐘，一個用戶又怎么能燒掉 100 億個Token呢？

結(jié)果發(fā)現(xiàn)，連續(xù)運行 10～20 分鐘，剛好足夠卡詩“for loop”的妙用。

一旦將 Token 消耗與用戶在應(yīng)用中的時間解耦decouple，物理規(guī)律就接管了一切：把 Claude 丟去執(zhí)行一個任務(wù)，讓它自己檢查結(jié)果、重構(gòu)、優(yōu)化，如此循環(huán)，直到破產(chǎn)為止。

用戶變成了 API 編排者，在 Anthropic 買單的情況下，7×24 小時地運行代碼轉(zhuǎn)換引擎。

從聊天到 Agent 的演化，一夜之間就發(fā)生了，消耗量暴增了 1000 倍。

這是一次相變，而不是漸變。

于是， Anthropic 下架了無限量套餐。

他們本可以嘗試每月2000美金的訂價，但教訓不在于價格夠不夠高，而在于在這個新世界中，無論哪種訂閱模式，都不可能撐得起無限使用。

換言之，在這個新環(huán)境下，不存在行得通的固定訂閱價。

這筆賬已經(jīng)從根本上算不平了。

四、其他人的囚徒困境

這讓其他所有公司都陷入了一個進退兩難的處境。

每家AI公司都知道按用量計費（而不是固定價格），就能救自己，但他們也知道那么做會要了自己的命。

你在老老實實按 $0.01/1000Token收費，你那靠風投資金支持的競爭對手卻提供每月只需$20的無限量套餐。

用戶會選誰，還用猜嗎？

典型的囚徒困境：

大家都按用量收費 → 行業(yè)可持續(xù)發(fā)展
大家都按包月收費 → 一起卷到死
你按用量收，別人包月 → 你先死
你包月收，別人按用量 → 你贏了，但遲早也得死

結(jié)果就是，人人都選擇了背叛。

大家都去補貼重度用戶，所有人都在曬高斜率的增長曲線，但最終大家都不得不發(fā)布“重要定價更新”的公告。

Cursor、Lovable、Replit，他們心里都清楚賬怎么回事。他們選擇了今天先拼增長、明天再談盈利，最終難免破產(chǎn)，但那是下任 CEO 才要操心的問題。

老實說，也許他們最終是對的。

在跑馬圈地階段，市場份額確實比利潤率更重要。只要 VC 們還在不斷掏錢，填補單位經(jīng)濟的虧空。

但去問問 Jasper，當音樂停止時會發(fā)生什么吧。

五、避免死局？

難道真的有辦法，避免這場“死局”嗎？

據(jù)傳，Cognition 最近正以?150 億美元估值融資，而它對外公布的 ARR ，還不到?1 億美元（我猜也就 5000 萬左右）。

對比之下，Cursor 在 ARR?5 億美元時，融到了?100 億美元的估值，增長曲線要陡峭得多。

前者收入不到后者的八分之一，估值卻達到了后者的三分之二。風投們知道關(guān)于 Cognition 的什么秘密，是我們所不知道的嗎？

兩家公司做的都是寫代碼的 AI Agent。難道 Cognition 找到了擺脫死亡螺旋的辦法？

從邏輯上看，避開死局有三條出路：

1、從第一天起就按使用量計費

不補貼用戶，不搞「先拉用戶、以后再變現(xiàn)」，而是老老實實按經(jīng)濟賬來，理論上這聽上去很不錯。

可是，有按量計費且大獲成功的面向消費者的 AI 公司嗎？

消費者討厭分段計費！

他們寧愿多花錢買不限量，也不想事后收到賬單時被嚇一跳。

每一家成功的 to C 訂閱服務(wù)——Netflix、Spotify、ChatGPT——用的都是統(tǒng)一套餐。

你只要一加上計量表，增長立馬死掉。

2、極高的切換成本，然后帶來高利潤率

Devin 正是all in在這條路上。

他們最近宣布了和花旗銀行及高盛的合作：在每家讓 4 萬名軟件工程師上手 Devin。按每人每月20美金算，這是個年收入近1000萬美金的項目。

但問題來了：你是愿意有來自高盛的1000萬美金的ARR，還是愿意有來自發(fā)燒級開發(fā)者們的5億美金ARR？

答案顯而易見：6 個月的部署實施、合規(guī)審核、安全審計、采購地獄……這意味著拿下高盛的單子非常困難，雖然一旦拿下，就幾乎不可能被撼動。只有當銀行里那個拍板的人，把自己的聲譽都押在你身上時，你才能簽下這些合同。而簽了約后，每個人都會想方設(shè)法把項目做成。

這也是為什么在超大規(guī)模云廠商之外，最大的那些軟件公司全都是賣比如 CRM/ERP/EHR等系統(tǒng)的，它們面向的正是這些客戶。這類公司通常能做到 80-90% 的利潤率，因為客戶越是不容易走，你的買家對價格就越不敏感。

當競爭對手趕到時，你已經(jīng)在客戶的體系中扎根很深，想切換得再耗一個 6 個月的銷售周期。他們并非走不了，而是你客戶的 CFO 寧死也不想再經(jīng)歷一次選擇過程了。

3、垂直整合，靠基礎(chǔ)架構(gòu)賺錢

這是 Replit 的游戲：把編碼 Agent 和應(yīng)用托管、數(shù)據(jù)庫管理、部署監(jiān)控、日志等打包提供。

每個 Token 都在虧錢，但你在這代新開發(fā)者的技術(shù)棧中每一層其他地方都攫取了價值，以下是 Replit 是如何做到高度垂直整合的。

把 AI 虧本賣，然后引流，來帶動那些與 AWS 競爭的服務(wù)消費。你賣的不是推理本身，你賣的是其余的一切，而推理部分只是營銷開支。

絕妙之處在于，代碼生成，自然而然會催生托管的需求。

每個應(yīng)用都需要運行的地方，每個數(shù)據(jù)庫都需要維護，每次部署都需要監(jiān)控。

就讓 OpenAI 和 Anthropic 去把推理價格卷到歸零吧，而你擁有其余所有部分。

那些還在玩“固定套餐、不計成本增長”的公司，都是行尸走肉，它們不過是把昂貴的葬禮安排在了第四季度而已。

六、前路和未來

我總是看到一些創(chuàng)始人，指望著“模型明年會便宜 10 倍”，把它當成救命稻草。

沒錯，模型會更便宜，但你的用戶會期待它們多干出 20 倍的活。

Cursor 對Windsurf 損益的壓力，讓他們找不到脫身之策。

就連擁有地球上最垂直整合應(yīng)用層的 Anthropic ，也無法讓無限量的固定訂閱模式跑通。

雖然我常說，先發(fā)制人勝過策略聰明being early beats being smart，但是，如果只是搶先，卻沒有計劃，也意味著你只是第一個進墓地的人。

如今，不會有 Google 給負利潤業(yè)務(wù)開出 24 億美元的支票。

當“以后再說”意味著你的AWS 賬單已經(jīng)比營收還高時，也就沒什么“以后再說”的余地了。

本文由人人都是產(chǎn)品經(jīng)理作者【柳胖胖】，微信公眾號：【一個胖子的世界】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

柳胖胖

資深產(chǎn)品經(jīng)理，36氪專欄作者

102篇作品 1176227總閱讀量

2.5萬部微短劇被下架，影視大廠還有必要下場嗎？

11-27785 瀏覽

谷歌整了幾個新域名，讓我們距離網(wǎng)絡(luò)詐騙更近了一步

06-122809 瀏覽

作為產(chǎn)品經(jīng)理，你應(yīng)該了解架構(gòu)圖！來看看這8種！

10-2415496 瀏覽

想轉(zhuǎn)行做大模型？AI產(chǎn)品經(jīng)理們，先看看這份指南

09-0611930 瀏覽

飛豬、攜程們的下半場：吃工具屬性老本，補內(nèi)容短板

09-253380 瀏覽

評論

目前還沒評論，等你發(fā)揮！

業(yè)財一體化之支付系統(tǒng)（企業(yè)視角）

10-169879 瀏覽
從“企業(yè)、用戶與產(chǎn)品”的維度論述產(chǎn)品經(jīng)理的能力模型

12-137413 瀏覽
微軟上線AI助手Copilot，網(wǎng)友：又一個人工智障？

07-025018 瀏覽

国外亚洲成av人片在线观看,热99re久久精品这里都是精品,天堂网在线最新版www,国产成人av区一区二区三,51久久成人国产精品麻豆

Token的成本下降10倍，但大模型公司卻離盈利越來越遠

一、沒人想要前天的報紙

二、Tokens的消耗，比我們想象中還要多

三、Anthropic奮力應(yīng)對這場逼空

四、其他人的囚徒困境

五、避免死局？