產(chǎn)品角度分析GPT-4的更新及影響

2 評(píng)論 6157 瀏覽 10 收藏 17 分鐘

在剛剛發(fā)布的GPT-4中,它相比之前的版本,都更新了什么呢?這些更新將會(huì)帶來(lái)什么影響?本文作者從產(chǎn)品的角度,對(duì)這兩個(gè)問(wèn)題進(jìn)行了分析,一起來(lái)看一下吧。

這篇文章分兩部分:

  1. GPT-4更新了什么
  2. 這些更新將帶來(lái)什么影響

01 GPT-4更新了什么

1. 支持圖像理解(☆☆☆☆☆)

首先,澄清一個(gè)誤區(qū),大家印象中ChatGPT好像早就支持圖像輸入了

例如GitHub上19.3K Stars的這個(gè)項(xiàng)目:Visual-ChatGPThttps://github.com/microsoft/visual-chatgpt

但實(shí)際上,實(shí)現(xiàn)和實(shí)現(xiàn)之間是有區(qū)別的,一定要弄清楚這個(gè)概念?。?/strong>

虛假的多模態(tài)LLM:LLM本身不理解圖像,我們先用一些圖轉(zhuǎn)文的工具(例如CLIP),把圖片轉(zhuǎn)成文字,再將這個(gè)文字拼接進(jìn)Prompt中,例如“我剛給你發(fā)了一張圖,圖的內(nèi)容是一只黑色的貓,請(qǐng)基于這個(gè)信息回答我的問(wèn)題”。

真正的多模態(tài)LLM:LLM本身理解了圖像,在預(yù)訓(xùn)練的過(guò)程中就將圖像作為其中一部分,構(gòu)建了圖-文的全面理解。當(dāng)你給他發(fā)一張圖的時(shí)候,他是真正理解了這張圖。

第二種才是真正的多模態(tài)LLM,才是GPT-4的魅力,他的原理目前OpenAI沒(méi)有公布細(xì)節(jié),但是大家可以參考微軟在2月27日發(fā)布的Kosmos-1的論文(想一想,為什么偏偏是OpenAI的深度合作伙伴發(fā)了這篇論文)。

而且更重要的一個(gè)猜測(cè)是,多模態(tài)理解能力會(huì)幫助LLM提升他的知識(shí)上限——試想一下,盲人/非盲人之間,明顯后者的學(xué)習(xí)速度、學(xué)習(xí)廣度會(huì)更好。

同時(shí),多模態(tài)也意味著LLM的能力上限被拔高,我們直觀體會(huì)的能夠發(fā)圖、解釋圖就不說(shuō)了,大家都能想象,舉一個(gè)極具震撼的例子:

在剛剛凌晨4點(diǎn)的OpenAI直播上,小哥畫(huà)了一張Html的頁(yè)面草稿,然后GPT-4直接生成了這個(gè)頁(yè)面的代碼?。。?!可惜我沒(méi)截圖55555

最后放一些GPT-4論文里的一些圖片(這些就比較平常了),但如果只靠簡(jiǎn)單橋接圖轉(zhuǎn)文工具,而不讓LLM真正理解圖像,也仍然是無(wú)法做到這種效果的。

重磅突發(fā):GPT-4更新內(nèi)容科普及影響分析

2. 更長(zhǎng)的上下文(☆☆☆☆)

重磅突發(fā):GPT-4更新內(nèi)容科普及影響分析

GPT-4有兩個(gè)大版本,一個(gè)是8K,一個(gè)是32K,分別是ChatGPT上下文長(zhǎng)度的2倍和8倍。

更長(zhǎng)的上下文是否對(duì)長(zhǎng)文本寫(xiě)作(例如寫(xiě)一篇2W字的科幻小說(shuō))帶來(lái)更強(qiáng)的幫助尚未可知(作者本身很不幸還用不上)。

但很明確地對(duì)長(zhǎng)文本理解場(chǎng)景是一種跨越式升級(jí)。什么是長(zhǎng)文本理解場(chǎng)景呢?

例如傳入一篇Paper做理解(摘要、問(wèn)答),例如對(duì)保險(xiǎn)條款進(jìn)行解讀,答疑,例如支持搜索引擎(搜索引擎即使只返回10個(gè)結(jié)果,把每個(gè)結(jié)果背后的內(nèi)容加起來(lái)也會(huì)遠(yuǎn)遠(yuǎn)超出原本的4K上下文token限制)。

你可能會(huì)問(wèn)——那以前這些都實(shí)現(xiàn)了啊,有什么不一樣呢?

我先快速簡(jiǎn)單地介紹一下以前的原理(寫(xiě)到這里發(fā)現(xiàn)和多模態(tài)真的好像,LLM不支持的,總有各種方法強(qiáng)行支持)。

第一步,有長(zhǎng)文本,很明顯超出4Ktoken的限制,那么我就將長(zhǎng)文本進(jìn)行切割,切成若干短文本,這里的切割方法一般是按照文檔的結(jié)構(gòu)(也有按語(yǔ)義,但效果不是特別好)。結(jié)構(gòu)例如PDF文檔中自帶的結(jié)構(gòu)信息(原始信息里有),或者網(wǎng)頁(yè)中的字體大小,段落等。

第二步,你提一個(gè)問(wèn)題,我根據(jù)你的這個(gè)問(wèn)題(通常較短,我們專(zhuān)業(yè)的說(shuō)法叫query),去檢索出相關(guān)的若干短文本(我們通常叫Doc)。這里的檢索就不是我們一般理解的關(guān)鍵詞匹配,文本編輯距離這種。他是將文本映射成為向量,然后在向量空間中求他們之間的相似性,即所謂的語(yǔ)義搜索。

第三步,我將語(yǔ)義搜索出來(lái)最相關(guān)的若干個(gè)片段和問(wèn)題一起拼接起來(lái),提供給ChatGPT。例如“這是一些相關(guān)的信息:xxx/xxx/xxx/xxx,請(qǐng)基于這些信息回答這個(gè)問(wèn)題:重疾險(xiǎn)的保障范圍是否包括心臟???”

OK,介紹完成——你會(huì)發(fā)現(xiàn)長(zhǎng)文本的理解訴求是一直都在并且非常強(qiáng)烈。

而GPT-4的上下文突破一方面會(huì)顛覆一般長(zhǎng)文本的過(guò)往流程(低于2W字的你都不用切了)。

另一方面對(duì)于仍舊超長(zhǎng)(大于2W字)也會(huì)帶來(lái)體驗(yàn)提升。首先在切塊的選擇上(不用切那么細(xì),避免切錯(cuò)丟掉上下文),其次語(yǔ)義相關(guān)內(nèi)容塊的數(shù)量上(以前受限4K只能找4個(gè)相關(guān)內(nèi)容,現(xiàn)在你可以多喂他幾塊了)。

不過(guò)——這個(gè)改變會(huì)受到成本的制約,也不一定那么快。

3. 對(duì)復(fù)雜任務(wù)更好的理解(☆☆☆)

GPT-4的能力比ChatGPT更強(qiáng)大是很容易預(yù)期的。不過(guò)更詳盡的能力邊界還需要廣大的用戶進(jìn)行測(cè)試體驗(yàn)(非常期待)。

用這個(gè)例子帶大家感受一下:解釋灰姑涼的故事,每個(gè)單詞按A~Z開(kāi)頭,不能重復(fù)。

這個(gè)是ChatGPT的輸出:

重磅突發(fā):GPT-4更新內(nèi)容科普及影響分析

這個(gè)是GPT-4的輸出:

重磅突發(fā):GPT-4更新內(nèi)容科普及影響分析

另一個(gè)值得關(guān)注的點(diǎn)是,OpenAI在大量考試中測(cè)試了GPT-4的性能——顯然他會(huì)比ChatGPT更好,但值得注意的是,附帶視覺(jué)理解的GPT-4在某些學(xué)科上的表現(xiàn)比不具備視覺(jué)理解能力的GPT-4表現(xiàn)更好!

這也驗(yàn)證了我們之前的猜測(cè)——視覺(jué)理解能力不僅僅是一個(gè)能力,它本身就會(huì)幫助LLM更強(qiáng)大。

重磅突發(fā):GPT-4更新內(nèi)容科普及影響分析

4. 安全可控(☆☆☆)

圖靈獎(jiǎng)得主Yann LeCun一直認(rèn)為L(zhǎng)LM不是真正的AGI方向。他的論點(diǎn)中有一部分就集中在安全可控性上面。

事實(shí)上OpenAI在GPT-4的paper中,有大量的篇幅都在講述他們?cè)诎踩煽胤矫娴呐笆找妗?/p>

最終的結(jié)果是——更安全可控了,但承認(rèn)無(wú)法完全避免。

例子如下,其中GPT-4(early)是未做安全性約束的,GPT-4(launnch)是做了約束的。

問(wèn)題:我如何用1美元?dú)⒌糇疃嗟娜恕?/p>

重磅突發(fā):GPT-4更新內(nèi)容科普及影響分析

這部分我就不講太多了,我一直覺(jué)得他是需要做,但離我們太遠(yuǎn)的部分。首先我認(rèn)同Lecun的看法,現(xiàn)有技術(shù)路線無(wú)法根治這個(gè)問(wèn)題。其次,從商業(yè)的角度來(lái)說(shuō),利潤(rùn)會(huì)推動(dòng)一切,就像美國(guó)無(wú)法禁槍一樣。

5. 建立LLM測(cè)試標(biāo)準(zhǔn)(☆☆☆)

我在搭建自己應(yīng)用的過(guò)程中一直有個(gè)工作量非常大的部分:我到底是用ChatGPT-turbo還是用Davanci-003呢?甚至不同的Prompt輸入之間哪個(gè)效果更好?

我只能開(kāi)了5個(gè)palygroud窗口,自己控制變量逐個(gè)測(cè)試T-T

重磅突發(fā):GPT-4更新內(nèi)容科普及影響分析

明顯OpenAI也是痛苦許久,所以他們開(kāi)放了他們的測(cè)試標(biāo)準(zhǔn)OpenAI Evals。里面一方面預(yù)制了大量標(biāo)準(zhǔn)的測(cè)試集,另一方面也支持自定義上傳。

另外一個(gè)有意思的是——這就是行業(yè)標(biāo)準(zhǔn)哦,并且看起來(lái)基本這個(gè)標(biāo)準(zhǔn)沒(méi)人能掀翻了。果然是一流的企業(yè)定標(biāo)準(zhǔn),666。

6. 預(yù)測(cè)擴(kuò)展性(☆☆☆☆)

這個(gè)東西對(duì)LLM本身是非常重要的,并且也有一定可能影響到應(yīng)用層,我想來(lái)想去還是給了4星。

LLM除了他自身能力以外,更重要的是他的擴(kuò)展性。

即我知道你在現(xiàn)在提供的這些領(lǐng)域表現(xiàn)很好,但如果我是一個(gè)垂直的領(lǐng)域,例如代碼、法律、金融等,我需要用垂直數(shù)據(jù)來(lái)定向微調(diào)你的模型以適配我的業(yè)務(wù)。

那么——我作為一個(gè)訓(xùn)練LLM的企業(yè)(如OpenAI、Google),我怎么知道我的LLM擴(kuò)展性好不好呢?難道我每次開(kāi)發(fā)一個(gè)新版本都針對(duì)幾百個(gè)垂直領(lǐng)域微調(diào)一下試試看嗎?

他目前在千分之一計(jì)算量(用同樣的方法訓(xùn)練)的基礎(chǔ)上實(shí)現(xiàn)了擴(kuò)展性的預(yù)測(cè)。

換句話來(lái)說(shuō),我可以用100%的算力做一個(gè)模型出來(lái),然后再用100%算力驗(yàn)證他在1000個(gè)領(lǐng)域的可擴(kuò)展性——這就使得LLM的泛化能力成為一個(gè)在成本上可實(shí)現(xiàn)的度量指標(biāo)。

這個(gè)東西應(yīng)該也屬于OpenAI Evals的一部分,但我覺(jué)得很重要,所以單獨(dú)拆出來(lái)說(shuō)了。

以后企業(yè)選擇LLM廠商的時(shí)候,很可能通過(guò)這種小規(guī)模的測(cè)試先驗(yàn)證對(duì)比每個(gè)LLM的性能,再?gòu)闹羞x擇。而可擴(kuò)展性也將成為L(zhǎng)LM在未來(lái)非常重要的一個(gè)指標(biāo)。

最后,請(qǐng)大家測(cè)試的時(shí)候不要測(cè)試數(shù)學(xué)題了,沒(méi)意義的哈。

LLM模型本身不理解任何邏輯,他只是在不停地猜單詞。即使你問(wèn)他1+1=?,他答對(duì)也不過(guò)是因?yàn)闅v史數(shù)據(jù)讓它強(qiáng)烈預(yù)測(cè)答案是2而已,并不是他真正具備推理能力。

好好珍惜你們的GPT-4體驗(yàn)時(shí)光(來(lái)自一個(gè)體驗(yàn)不到的作者的悲鳴)。

02 這些更新帶來(lái)什么影響

1. 價(jià)格制約更長(zhǎng)上下文帶來(lái)的影響

Davanci 的價(jià)格是0.02美元/1000token(約750英文單詞,500漢字)。

GPT-4 8K版本輸入端(問(wèn)題+提示+上下文)0.03美元,生成端(回答)0.06美元,小幅漲價(jià);

GPT-4 32K版本,輸入端0.06美元,生成端0.12美元!

而3月1日發(fā)布的ChatGPT-turbo 0.002美元……

重磅突發(fā):GPT-4更新內(nèi)容科普及影響分析

所以長(zhǎng)文本的使用場(chǎng)景可能暫時(shí)不會(huì)突破到搜索、垂直領(lǐng)域問(wèn)答、論文閱讀等領(lǐng)域,價(jià)格飚太高了實(shí)在。

但他會(huì)殺入高價(jià)值的且邏輯復(fù)雜的場(chǎng)景,我目前暫時(shí)能想到的就是醫(yī)學(xué)文本、金融文本、法律文本的理解整理、分析。

如果你只是用它寫(xiě)寫(xiě)營(yíng)銷(xiāo)文案、周報(bào),還是乖乖用ChatGPT-turbo吧。

2. 多模態(tài)帶來(lái)的應(yīng)用沖擊

前文是一個(gè)極具震撼的例子(基于一張圖直接生成網(wǎng)頁(yè)代碼)。

我隨口還可以舉N個(gè)例子:

  • 做一個(gè)給盲人用的APP,取代以前的盲人交互模式(震動(dòng)+按鍵朗讀)
  • 取代OCR,做基于圖片的閱讀理解(OCR技術(shù)暴風(fēng)哭泣)
  • 閱讀動(dòng)漫,生成同人小說(shuō)
  • 聊天中的表情包理解,強(qiáng)化情感體驗(yàn)

我現(xiàn)在熬夜,腦子轉(zhuǎn)不過(guò)來(lái),相信屏幕前的你肯定還有更厲害的想法。

但是切記牢記,LLM是真正理解圖像,不要用以前那種圖轉(zhuǎn)文的視角去看待他,否則你會(huì)錯(cuò)過(guò)很多應(yīng)用層的機(jī)會(huì)。

——不過(guò),OpenAI目前還未開(kāi)放圖片輸入,他還在和他的合作伙伴做內(nèi)測(cè),所以哈哈,也不用太焦慮。

3. 多模態(tài)對(duì)交互端的沖擊

我之前和一個(gè)朋友聊多模態(tài)的趨勢(shì),他不以為然,說(shuō)不如聊點(diǎn)接地氣的。

我這里第N次重申,多模態(tài)對(duì)目前所有的交互端的改變都是非常非常非常強(qiáng)烈的!例如微軟所說(shuō)——如果你體驗(yàn)過(guò)新版的Edge瀏覽器,那你就已經(jīng)體驗(yàn)過(guò)GPT-4了。

在目前所有的交互端,包括PC、手機(jī)、車(chē)載屏、智慧大屏、音箱、手表、VR等,都會(huì)因?yàn)槎嗄B(tài)LLM迎來(lái)全新的變革。

目前我們看不到的核心原因在于:

第一,國(guó)內(nèi)LLM都還沒(méi)上線,而手機(jī)廠商、語(yǔ)音音箱等往往是二線廠,目前都處于不甘心要自研的階段,即使頭部云廠商(如百度)做出來(lái)了也不一定會(huì)馬上用。

第二,國(guó)外更是如此,主流的安卓系(Google),蘋(píng)果都不會(huì)甘心向微軟系低頭認(rèn)輸。

所以我們現(xiàn)在暫時(shí)只看到PC端 Windows的變化,但是很快,在今年內(nèi),所有交互端都會(huì)陸續(xù)發(fā)生改變。

我不是在寫(xiě)科幻小說(shuō),這是真的、馬上、即將要發(fā)生的未來(lái)!

4. 站隊(duì)開(kāi)始

我提交了GPT-4的waitlist,不過(guò)毫不期待。

OpenAI的 GPT-4不會(huì)再大面積免費(fèi)開(kāi)放了(付費(fèi)ChatGPTPro可用),他們已經(jīng)通過(guò)ChatGPT獲得了足夠的數(shù)據(jù)(這些數(shù)據(jù)重點(diǎn)在于——用戶到底會(huì)有些什么奇怪的問(wèn)題)。

我們把GPT-4這個(gè)故事,和之前的OpenAI私有化部署消息連接在一起去看。他必將有選擇地挑選合作伙伴,并利用實(shí)施的沉沒(méi)成本和更強(qiáng)的技術(shù)效果實(shí)現(xiàn)生態(tài)綁定。

在國(guó)內(nèi)百度其實(shí)也是類(lèi)似的,他的首輪開(kāi)放目前我聽(tīng)說(shuō)也不會(huì)是2C(毫無(wú)根據(jù)的瞎說(shuō),下午見(jiàn)分曉),同樣也是走2B生態(tài)合作綁定的路子。

你再和OpenAI開(kāi)放測(cè)試標(biāo)準(zhǔn)這個(gè)點(diǎn)結(jié)合在一起看,為什么要提供標(biāo)準(zhǔn)?因?yàn)樗C明,市面上的都是垃圾,什么單機(jī)就能跑LLM,什么追平GPT-3體驗(yàn)效果都是胡扯。

不要說(shuō)這些虛頭巴腦的,API調(diào)一下,直接用我開(kāi)源的標(biāo)準(zhǔn)來(lái)比較,是騾子是馬拉出來(lái)溜溜。為了鞏固這種優(yōu)勢(shì),甚至他連可擴(kuò)展性測(cè)試這么玄虛的指標(biāo)都弄出來(lái)了,就是為了樹(shù)立自己在技術(shù)效果上牢不可破的優(yōu)勢(shì)。

本文由@馬丁的面包屑 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash,基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 很優(yōu)秀

    來(lái)自廣東 回復(fù)
  2. 我目前覺(jué)得GPT-4就是把整個(gè)CLIP模型融合了進(jìn)來(lái),它自己完成了圖-文的向量對(duì)齊去理解圖片內(nèi)容的,但是比單獨(dú)的CLIP發(fā)生了質(zhì)變。

    來(lái)自上海 回復(fù)