計(jì)算機(jī)視覺入門總結(jié):概念、發(fā)展歷史、基本原理、典型任務(wù)和應(yīng)用

0 評論 2043 瀏覽 0 收藏 11 分鐘

本文介紹計(jì)算機(jī)視覺的概念、發(fā)展歷史、基本原理、典型任務(wù)和應(yīng)用。從早期探索到深度學(xué)習(xí)革命,計(jì)算機(jī)視覺經(jīng)歷了多個(gè)階段的發(fā)展。

近兩年來 AI 產(chǎn)業(yè)已然成為新的焦點(diǎn)和風(fēng)口,各互聯(lián)網(wǎng)巨頭都在布局人工智能,不少互聯(lián)網(wǎng)產(chǎn)品經(jīng)理也開始考慮轉(zhuǎn)型 AI 產(chǎn)品經(jīng)理,入門AI產(chǎn)品經(jīng)理,或許你應(yīng)該了解一些技術(shù),本文將為你詳細(xì)介紹計(jì)算機(jī)視覺。

01 什么是計(jì)算機(jī)視覺

計(jì)算機(jī)視覺是讓計(jì)算機(jī)通過攝像頭和算法模擬人類視覺能力的科學(xué)。

簡單來說,就是給機(jī)器裝上“眼睛”和“大腦”,使其能看懂圖片中的物體、場景、動(dòng)作等信息。

它要解決的問題就是:讓計(jì)算機(jī)看懂圖像或者視頻里的內(nèi)容。

比如:圖片里的寵物是貓還是狗?圖片里的人是老張還是老王?視頻里的人在做什么事情?

02 計(jì)算機(jī)視覺的發(fā)展歷史

1. 早期探索(1950s–1960s)

理論奠基:計(jì)算機(jī)視覺的雛形可追溯至1950年代,受神經(jīng)科學(xué)和心理學(xué)啟發(fā)。

1959年,David Hubel和Torsten Wiesel通過貓的視覺皮層實(shí)驗(yàn),揭示了視覺系統(tǒng)對邊緣和方向敏感的特性,為后來的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(如卷積神經(jīng)網(wǎng)絡(luò))提供了生物學(xué)基礎(chǔ)。

初步算法:1963年,Larry Roberts(“計(jì)算機(jī)視覺之父”)在《三維物體的機(jī)器感知》中提出通過邊緣檢測和幾何模型從二維圖像重建三維結(jié)構(gòu),奠定了早期圖像分析框架。

2. 理論體系形成(1970s–1980s)

Marr的視覺計(jì)算理論:1970年代末,David Marr提出系統(tǒng)的視覺處理框架,認(rèn)為視覺需經(jīng)歷“原始草圖→2.5D草圖→3D模型”三個(gè)階段,強(qiáng)調(diào)從圖像到三維結(jié)構(gòu)的層次化計(jì)算。

技術(shù)突破如下:

(1)邊緣檢測:Canny邊緣檢測算法(1986年)成為經(jīng)典。

(2)立體視覺:研究雙目視覺的視差計(jì)算,用于深度估計(jì)。

(3)模式識(shí)別:基于模板匹配和統(tǒng)計(jì)方法進(jìn)行物體分類。

3. 傳統(tǒng)方法時(shí)代(1990s–2000s)

特征工程主導(dǎo):

(1)SIFT(1999):David Lowe提出尺度不變特征變換,實(shí)現(xiàn)魯棒的特征匹配。

(2)HOG(2005):方向梯度直方圖用于行人檢測。

(3)SVM與Boosting:支持向量機(jī)(SVM)、Adaboost等分類器結(jié)合手工特征,推動(dòng)目標(biāo)檢測(如Viola-Jones人臉檢測器)。

應(yīng)用場景擴(kuò)展:工業(yè)檢測、醫(yī)學(xué)影像分析(如MRI圖像分割)、光學(xué)字符識(shí)別(OCR)等技術(shù)逐步實(shí)用化。

4. 深度學(xué)習(xí)革命(2012至今)

ImageNet與AlexNet(2012):

Alex Krizhevsky等人的AlexNet在ImageNet圖像分類競賽中大幅超越傳統(tǒng)方法(錯(cuò)誤率從26%降至15%),標(biāo)志著深度學(xué)習(xí)主導(dǎo)CV的開端。

關(guān)鍵技術(shù)進(jìn)展:

(1)卷積神經(jīng)網(wǎng)絡(luò)(CNN):LeNet-5(1998)→VGGNet(2014)→ResNet(2015)等網(wǎng)絡(luò)不斷加深,解決梯度消失問題。

(2)目標(biāo)檢測:Faster R-CNN(2015)、YOLO(2016)等實(shí)現(xiàn)實(shí)時(shí)檢測。

(3)圖像生成:生成對抗網(wǎng)絡(luò)(GAN, 2014)和擴(kuò)散模型(Diffusion Models, 2020s)推動(dòng)高質(zhì)量圖像生成。

(4)硬件與數(shù)據(jù)驅(qū)動(dòng):GPU算力提升、大規(guī)模標(biāo)注數(shù)據(jù)集(如COCO、Open Images)加速模型訓(xùn)練。

5. 當(dāng)前趨勢與挑戰(zhàn)

多模態(tài)融合:視覺與語言結(jié)合(CLIP、DALL·E)、視頻理解(Transformer模型)。

三維視覺:神經(jīng)輻射場(NeRF)、點(diǎn)云處理(PointNet)、SLAM技術(shù)。

邊緣計(jì)算與輕量化:MobileNet、EfficientNet等移動(dòng)端模型部署。

倫理與隱私:人臉識(shí)別濫用、深度偽造(Deepfake)風(fēng)險(xiǎn)、數(shù)據(jù)偏見問題。

03 計(jì)算機(jī)視覺的基本原理

計(jì)算機(jī)視覺的基本原理是利用圖像傳感器獲取目標(biāo)對象的圖像信號,然后將這些信號轉(zhuǎn)換成數(shù)字信號,并進(jìn)行多種運(yùn)算與處理,提取出目標(biāo)的特征信息進(jìn)行分析和理解,最終實(shí)現(xiàn)對目標(biāo)的識(shí)別、檢測和控制。

1、圖像獲取

通過攝像頭、傳感器等設(shè)備捕獲二維圖像或視頻,將物理世界的光信號轉(zhuǎn)換為數(shù)字信號

● ?設(shè)備類型:包括攝像頭(RGB相機(jī)、紅外相機(jī))、掃描儀、激光雷達(dá)(LiDAR)等,不同設(shè)備適用于特定場景(如醫(yī)療CT掃描、自動(dòng)駕駛多模態(tài)感知)

● ?數(shù)據(jù)形式:生成二維圖像、三維點(diǎn)云或視頻序列,像素值可表征光強(qiáng)度、深度或材質(zhì)特性(如X射線吸收度)

● ?關(guān)鍵參數(shù):分辨率、動(dòng)態(tài)范圍和采樣率直接影響后續(xù)處理效果,例如高分辨率攝像頭能捕捉更細(xì)膩的紋理

2、預(yù)處理

對獲取到的圖像進(jìn)行處理,常見的預(yù)處理方式有降噪、增強(qiáng)對比度(如醫(yī)療X光片去噪)、調(diào)整亮度等,提升圖像質(zhì)量。

3、特征提取

● 傳統(tǒng)方法:提取顏色(RGB/HSV)、邊緣(Sobel算子)、紋理(HOG)等特征

● 深度學(xué)習(xí)方法:通過卷積神經(jīng)網(wǎng)絡(luò)(CNN),模仿人眼視覺,用多層”濾網(wǎng)”逐步提取邊緣一形狀→物體特征,自動(dòng)學(xué)習(xí)高階特征(如人臉輪廓、物體形狀);通過多模態(tài)融合,結(jié)合RGB圖像與深度圖(如Kinect傳感器)提升特征魯棒性

4、模式訓(xùn)練

● 分類與檢測:利用分類器(如支持向量機(jī))或深度學(xué)習(xí)模型(如YOLO)識(shí)別物體類別和位置;

● 三維重建:通過立體視覺或激光雷達(dá)數(shù)據(jù)生成場景三維模型(如自動(dòng)駕駛中的環(huán)境感知)

5、輸出結(jié)果

根據(jù)分析結(jié)果執(zhí)行任務(wù)(如工業(yè)機(jī)器人抓取目標(biāo)、自動(dòng)駕駛車輛轉(zhuǎn)向)

4 典型的計(jì)算機(jī)視覺任務(wù)

1、圖像分類與識(shí)別

圖像分類是判斷圖像所屬類別的任務(wù)(如區(qū)分“貓”或“狗”),而圖像識(shí)別則進(jìn)一步識(shí)別圖像中每個(gè)物體的具體類別(如識(shí)別圖片中的“金毛犬”或“暹羅貓”)

2、物體檢測和分析

檢測圖像中物體的位置(邊界框)和類別(如檢測行人、車輛),并進(jìn)一步分析物體屬性(如顏色、形狀)。如圖a、b

目標(biāo)分割任務(wù)更進(jìn)一步,它不僅識(shí)別對象,還精確描繪出對象的輪廓,還能夠創(chuàng)建一個(gè)精確的像素級別的區(qū)域,以此來表示每個(gè)檢測到的對象的形狀。如圖c、d

3、 人體分析

分析人體特征和行為,包括人臉識(shí)別、姿態(tài)估計(jì)、動(dòng)作識(shí)別等。

4、三維計(jì)算機(jī)視覺

從二維圖像或視頻中重建三維場景或物體模型,理解空間關(guān)系。

5、視頻理解與分析

分析視頻中的時(shí)序信息,理解行為和事件(如動(dòng)作識(shí)別、行為預(yù)測)

5 計(jì)算機(jī)視覺的應(yīng)用

1、安全監(jiān)控

自動(dòng)檢測和識(shí)別異常行為。

如公共區(qū)域攝像頭自動(dòng)檢測火災(zāi)煙霧并聯(lián)動(dòng)消防系統(tǒng)

2、人臉識(shí)別:用于安防、支付及身份認(rèn)證。

3、無人駕駛:車輛和行人的檢測、車道線識(shí)別等。

4、醫(yī)學(xué)圖像分析:輔助醫(yī)生進(jìn)行疾病診斷。

5、工業(yè)檢測:用于質(zhì)量檢測,如產(chǎn)品缺陷檢測。

6、零售業(yè):顧客行為追蹤、庫存管理。

7、制造業(yè):預(yù)測性維護(hù)、缺陷檢測。

8、農(nóng)業(yè):精準(zhǔn)農(nóng)業(yè)、病蟲害檢測。

9、保險(xiǎn)業(yè):理賠處理、風(fēng)險(xiǎn)評估。

10、安防:識(shí)別顧客、改進(jìn)港口貨物檢驗(yàn)等

本文由人人都是產(chǎn)品經(jīng)理作者【諾兒筆記本】,微信公眾號:【諾兒筆記本】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!