国外亚洲成av人片在线观看,热99re久久精品这里都是精品,天堂网在线最新版www,国产成人av区一区二区三,51久久成人国产精品麻豆

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

{{ userInfo.member ? '查看權(quán)益' : '開通會(huì)員' }}

發(fā)布

注冊(cè) | 登錄

解讀 ChatGPT-4V 多模態(tài)能力

產(chǎn)品淺談

2023-10-13

0 評(píng)論 2353 瀏覽 3 收藏

6 分鐘

下面是筆者整理分享的一篇解讀關(guān)于 ChatGPT-4V 多模態(tài)能力的文章，其中包括物體檢測(cè)、人臉識(shí)別、文本識(shí)別、識(shí)別復(fù)雜驗(yàn)證碼能力等的知識(shí)，大家可以進(jìn)來了解了解。

今天 OpenAI 發(fā)布重大更新，支持多模態(tài)語音和圖像，模型叫 GPT-4V。

用一句話總結(jié)：ChatGPT 由「一個(gè)完美的詞語接龍工具」，現(xiàn)在升級(jí)能看懂你發(fā)的圖片，聽懂你的聲音，還能說話了！

千萬不要想，這個(gè)更新沒新東西，有人已經(jīng)拿它開始賺錢了！

Spotify 推出一個(gè)名為”Voice Translation for podcasts”的 AI 工具，可以將播客翻譯成其他語言，并保持原始發(fā)言人的聲音風(fēng)格。

好像比同聲翻譯還厲害了點(diǎn)（目前接口還沒有對(duì)外開放）。

對(duì)于開發(fā)者來說，研發(fā)成本大幅度降低。是不是可訓(xùn)練一個(gè)可以說話的小助理了？

講點(diǎn)實(shí)用，那這個(gè)更新，我們可以用來干什么？

我就基于官方的更新說明，逐個(gè)分析給大家。

一、GPT-4V說明

1. 物體檢測(cè)

檢測(cè)和識(shí)別圖像中的常見物體，如汽車、動(dòng)物、家居用品等。

這個(gè)能干啥？

官方給了一個(gè)例子：比如“如何調(diào)整自行車座椅高度”。

不知道怎么調(diào)整，手機(jī)拍下發(fā)給 ChatGPT，它來告訴你。不知道用什么工具，把你手邊能用的工具拍下來給GPT，它告訴你選哪種更合適。

就像在現(xiàn)實(shí)世界中，身邊有個(gè)專家，手把手教你怎么解決問題。

這個(gè)能力是可以工業(yè)化的，因?yàn)镃hatGPT是可以調(diào)用外部接口。

ChatGPT 能看到圖像，并且可以通過接口，調(diào)用工具來處理一些復(fù)雜的事務(wù)。比如機(jī)器人等。

2. 人臉識(shí)別

可以識(shí)別圖像中的人臉，并能根據(jù)面部特征，識(shí)別性別、年齡和種族屬性。其面部分析能力是在 FairFace 和 LFW 等數(shù)據(jù)集上進(jìn)行測(cè)量的。

那接下來是不是可以識(shí)別抑郁癥等疾??？

雖然官方重點(diǎn)聲明了 “目前在科學(xué)研究和醫(yī)療用途中性能不可靠”。

但未嘗不是一個(gè)突破點(diǎn)。

3. 文本識(shí)別

有字符識(shí)別 (OCR) 功能，可以檢測(cè)圖像中的打印或手寫文本，并將其轉(zhuǎn)錄為可讀文本。

這相當(dāng)于對(duì)現(xiàn)在的圖片轉(zhuǎn)文字功能，能力進(jìn)行了升級(jí)，不僅僅有識(shí)別能力，還能推理并修正錯(cuò)誤的信息，對(duì)開發(fā)者來說利好。

目前我認(rèn)識(shí)的朋友，就有這個(gè)需求，一下子就解決了他的問題。

4. 識(shí)別復(fù)雜驗(yàn)證碼能力

能通過視覺推理，來識(shí)別基于文本和圖像的驗(yàn)證碼，這表明 GPT 有高級(jí)的解謎能力！

可能會(huì)暴力破解一些驗(yàn)證碼工具，或者在科研領(lǐng)域，會(huì)有一些意想不到的效果。

5. 地理定位

可根據(jù)圖中的風(fēng)景，識(shí)別出是在哪個(gè)城市。

二、GPT-4V 視覺推理不足的地方

官方重點(diǎn)聲明了“目前在科學(xué)研究和醫(yī)療用途中性能不可靠”。

總結(jié)一下：GPT-4V 在空間的識(shí)別上，能力不足。

1. 復(fù)雜圖像

該模型難以準(zhǔn)確解釋復(fù)雜的科學(xué)圖表、醫(yī)學(xué)掃描或具有多個(gè)重疊文本組件的圖像。它沒有上下文細(xì)節(jié)，不能有效地提供服務(wù)。

2. 空間關(guān)系

模型很難理解圖像中，物品的精確空間布局和位置。它無法正確傳達(dá)物品之間的相對(duì)位置。

3. 重疊

當(dāng)圖像中的物品嚴(yán)重重疊時(shí)，GPT-4V 有時(shí)無法區(qū)分一個(gè)物品結(jié)束位置和下一個(gè)對(duì)象的開始位置。它會(huì)將不同的對(duì)象混合在一起。

4. 背景/前景

模型并不總是準(zhǔn)確地感知圖像的前景和背景中的對(duì)象。它可能會(huì)錯(cuò)誤地描述對(duì)象關(guān)系。

5. 遮擋

當(dāng)圖像中某些對(duì)象被其他對(duì)象部分遮擋或遮擋時(shí)，GPT-4V 可能無法識(shí)別被遮擋的對(duì)象或錯(cuò)過它們與周圍對(duì)象的關(guān)系。

6. 小細(xì)節(jié)

模型經(jīng)常會(huì)錯(cuò)過或誤解非常小的物體、文本或圖像中的復(fù)雜細(xì)節(jié)，從而導(dǎo)致錯(cuò)誤的關(guān)系描述。

7. 下文推理

GPT-4V 缺乏強(qiáng)大的視覺推理能力，來深入分析圖像的上下文，并描述對(duì)象之間的隱式關(guān)系。

8. 置信度

模型可能會(huì)錯(cuò)誤地描述對(duì)象關(guān)系，與圖像內(nèi)容不符。

最后，GPT-4V(ision)的訓(xùn)練完成于2022年，我們和Open的差距，看來不止3個(gè)月?。?/p>

加油啊，國(guó)內(nèi)的大模型廠家！

本文由@產(chǎn)品淺談原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自 Unsplash，基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

產(chǎn)品淺談

微信：TalkingSci，公眾號(hào)：產(chǎn)品淺談。AI 知識(shí)講解、產(chǎn)品深度分析

4篇作品 28345總閱讀量

微信公眾號(hào)的群發(fā)和發(fā)布功能，有什么區(qū)別？

09-115646 瀏覽

微信公眾號(hào)的群發(fā)和發(fā)布功能，有什么區(qū)別？

“蹭”成了營(yíng)銷首要選擇

09-152439 瀏覽

“蹭”成了營(yíng)銷首要選擇

NLP思維邏輯：從學(xué)生思維到職場(chǎng)人的轉(zhuǎn)變

02-164456 瀏覽

NLP思維邏輯：從學(xué)生思維到職場(chǎng)人的轉(zhuǎn)變

扁平化設(shè)計(jì)終結(jié)？新趨勢(shì)來了？

12-268811 瀏覽

扁平化設(shè)計(jì)終結(jié)？新趨勢(shì)來了？

聯(lián)網(wǎng)后，ChatGPT開始說些不著調(diào)的話……

02-212707 瀏覽

聯(lián)網(wǎng)后，ChatGPT開始說些不著調(diào)的話……

評(píng)論

目前還沒評(píng)論，等你發(fā)揮！

騰訊，不搞貨架電商了？

02-023160 瀏覽
看視頻能賺錢！激勵(lì)視頻廣告的框架設(shè)計(jì)與提轉(zhuǎn)思考

05-256448 瀏覽
導(dǎo)游小祈一夜?jié)q粉百萬，旅行社MCN“突圍”抖音？

07-052468 瀏覽