計(jì)算機(jī)視覺入門總結(jié):概念、發(fā)展歷史、基本原理、典型任務(wù)和應(yīng)用
本文介紹計(jì)算機(jī)視覺的概念、發(fā)展歷史、基本原理、典型任務(wù)和應(yīng)用。從早期探索到深度學(xué)習(xí)革命,計(jì)算機(jī)視覺經(jīng)歷了多個(gè)階段的發(fā)展。
近兩年來 AI 產(chǎn)業(yè)已然成為新的焦點(diǎn)和風(fēng)口,各互聯(lián)網(wǎng)巨頭都在布局人工智能,不少互聯(lián)網(wǎng)產(chǎn)品經(jīng)理也開始考慮轉(zhuǎn)型 AI 產(chǎn)品經(jīng)理,入門AI產(chǎn)品經(jīng)理,或許你應(yīng)該了解一些技術(shù),本文將為你詳細(xì)介紹計(jì)算機(jī)視覺。
01 什么是計(jì)算機(jī)視覺
計(jì)算機(jī)視覺是讓計(jì)算機(jī)通過攝像頭和算法模擬人類視覺能力的科學(xué)。
簡單來說,就是給機(jī)器裝上“眼睛”和“大腦”,使其能看懂圖片中的物體、場景、動(dòng)作等信息。
它要解決的問題就是:讓計(jì)算機(jī)看懂圖像或者視頻里的內(nèi)容。
比如:圖片里的寵物是貓還是狗?圖片里的人是老張還是老王?視頻里的人在做什么事情?
02 計(jì)算機(jī)視覺的發(fā)展歷史
1. 早期探索(1950s–1960s)
理論奠基:計(jì)算機(jī)視覺的雛形可追溯至1950年代,受神經(jīng)科學(xué)和心理學(xué)啟發(fā)。
1959年,David Hubel和Torsten Wiesel通過貓的視覺皮層實(shí)驗(yàn),揭示了視覺系統(tǒng)對邊緣和方向敏感的特性,為后來的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(如卷積神經(jīng)網(wǎng)絡(luò))提供了生物學(xué)基礎(chǔ)。
初步算法:1963年,Larry Roberts(“計(jì)算機(jī)視覺之父”)在《三維物體的機(jī)器感知》中提出通過邊緣檢測和幾何模型從二維圖像重建三維結(jié)構(gòu),奠定了早期圖像分析框架。
2. 理論體系形成(1970s–1980s)
Marr的視覺計(jì)算理論:1970年代末,David Marr提出系統(tǒng)的視覺處理框架,認(rèn)為視覺需經(jīng)歷“原始草圖→2.5D草圖→3D模型”三個(gè)階段,強(qiáng)調(diào)從圖像到三維結(jié)構(gòu)的層次化計(jì)算。
技術(shù)突破如下:
(1)邊緣檢測:Canny邊緣檢測算法(1986年)成為經(jīng)典。
(2)立體視覺:研究雙目視覺的視差計(jì)算,用于深度估計(jì)。
(3)模式識(shí)別:基于模板匹配和統(tǒng)計(jì)方法進(jìn)行物體分類。
3. 傳統(tǒng)方法時(shí)代(1990s–2000s)
特征工程主導(dǎo):
(1)SIFT(1999):David Lowe提出尺度不變特征變換,實(shí)現(xiàn)魯棒的特征匹配。
(2)HOG(2005):方向梯度直方圖用于行人檢測。
(3)SVM與Boosting:支持向量機(jī)(SVM)、Adaboost等分類器結(jié)合手工特征,推動(dòng)目標(biāo)檢測(如Viola-Jones人臉檢測器)。
應(yīng)用場景擴(kuò)展:工業(yè)檢測、醫(yī)學(xué)影像分析(如MRI圖像分割)、光學(xué)字符識(shí)別(OCR)等技術(shù)逐步實(shí)用化。
4. 深度學(xué)習(xí)革命(2012至今)
ImageNet與AlexNet(2012):
Alex Krizhevsky等人的AlexNet在ImageNet圖像分類競賽中大幅超越傳統(tǒng)方法(錯(cuò)誤率從26%降至15%),標(biāo)志著深度學(xué)習(xí)主導(dǎo)CV的開端。
關(guān)鍵技術(shù)進(jìn)展:
(1)卷積神經(jīng)網(wǎng)絡(luò)(CNN):LeNet-5(1998)→VGGNet(2014)→ResNet(2015)等網(wǎng)絡(luò)不斷加深,解決梯度消失問題。
(2)目標(biāo)檢測:Faster R-CNN(2015)、YOLO(2016)等實(shí)現(xiàn)實(shí)時(shí)檢測。
(3)圖像生成:生成對抗網(wǎng)絡(luò)(GAN, 2014)和擴(kuò)散模型(Diffusion Models, 2020s)推動(dòng)高質(zhì)量圖像生成。
(4)硬件與數(shù)據(jù)驅(qū)動(dòng):GPU算力提升、大規(guī)模標(biāo)注數(shù)據(jù)集(如COCO、Open Images)加速模型訓(xùn)練。
5. 當(dāng)前趨勢與挑戰(zhàn)
多模態(tài)融合:視覺與語言結(jié)合(CLIP、DALL·E)、視頻理解(Transformer模型)。
三維視覺:神經(jīng)輻射場(NeRF)、點(diǎn)云處理(PointNet)、SLAM技術(shù)。
邊緣計(jì)算與輕量化:MobileNet、EfficientNet等移動(dòng)端模型部署。
倫理與隱私:人臉識(shí)別濫用、深度偽造(Deepfake)風(fēng)險(xiǎn)、數(shù)據(jù)偏見問題。
03 計(jì)算機(jī)視覺的基本原理
計(jì)算機(jī)視覺的基本原理是利用圖像傳感器獲取目標(biāo)對象的圖像信號,然后將這些信號轉(zhuǎn)換成數(shù)字信號,并進(jìn)行多種運(yùn)算與處理,提取出目標(biāo)的特征信息進(jìn)行分析和理解,最終實(shí)現(xiàn)對目標(biāo)的識(shí)別、檢測和控制。
1、圖像獲取
通過攝像頭、傳感器等設(shè)備捕獲二維圖像或視頻,將物理世界的光信號轉(zhuǎn)換為數(shù)字信號
● ?設(shè)備類型:包括攝像頭(RGB相機(jī)、紅外相機(jī))、掃描儀、激光雷達(dá)(LiDAR)等,不同設(shè)備適用于特定場景(如醫(yī)療CT掃描、自動(dòng)駕駛多模態(tài)感知)
● ?數(shù)據(jù)形式:生成二維圖像、三維點(diǎn)云或視頻序列,像素值可表征光強(qiáng)度、深度或材質(zhì)特性(如X射線吸收度)
● ?關(guān)鍵參數(shù):分辨率、動(dòng)態(tài)范圍和采樣率直接影響后續(xù)處理效果,例如高分辨率攝像頭能捕捉更細(xì)膩的紋理
2、預(yù)處理
對獲取到的圖像進(jìn)行處理,常見的預(yù)處理方式有降噪、增強(qiáng)對比度(如醫(yī)療X光片去噪)、調(diào)整亮度等,提升圖像質(zhì)量。
3、特征提取
● 傳統(tǒng)方法:提取顏色(RGB/HSV)、邊緣(Sobel算子)、紋理(HOG)等特征
● 深度學(xué)習(xí)方法:通過卷積神經(jīng)網(wǎng)絡(luò)(CNN),模仿人眼視覺,用多層”濾網(wǎng)”逐步提取邊緣一形狀→物體特征,自動(dòng)學(xué)習(xí)高階特征(如人臉輪廓、物體形狀);通過多模態(tài)融合,結(jié)合RGB圖像與深度圖(如Kinect傳感器)提升特征魯棒性
4、模式訓(xùn)練
● 分類與檢測:利用分類器(如支持向量機(jī))或深度學(xué)習(xí)模型(如YOLO)識(shí)別物體類別和位置;
● 三維重建:通過立體視覺或激光雷達(dá)數(shù)據(jù)生成場景三維模型(如自動(dòng)駕駛中的環(huán)境感知)
5、輸出結(jié)果
根據(jù)分析結(jié)果執(zhí)行任務(wù)(如工業(yè)機(jī)器人抓取目標(biāo)、自動(dòng)駕駛車輛轉(zhuǎn)向)
4 典型的計(jì)算機(jī)視覺任務(wù)
1、圖像分類與識(shí)別
圖像分類是判斷圖像所屬類別的任務(wù)(如區(qū)分“貓”或“狗”),而圖像識(shí)別則進(jìn)一步識(shí)別圖像中每個(gè)物體的具體類別(如識(shí)別圖片中的“金毛犬”或“暹羅貓”)
2、物體檢測和分析
檢測圖像中物體的位置(邊界框)和類別(如檢測行人、車輛),并進(jìn)一步分析物體屬性(如顏色、形狀)。如圖a、b
目標(biāo)分割任務(wù)更進(jìn)一步,它不僅識(shí)別對象,還精確描繪出對象的輪廓,還能夠創(chuàng)建一個(gè)精確的像素級別的區(qū)域,以此來表示每個(gè)檢測到的對象的形狀。如圖c、d
3、 人體分析
分析人體特征和行為,包括人臉識(shí)別、姿態(tài)估計(jì)、動(dòng)作識(shí)別等。
4、三維計(jì)算機(jī)視覺
從二維圖像或視頻中重建三維場景或物體模型,理解空間關(guān)系。
5、視頻理解與分析
分析視頻中的時(shí)序信息,理解行為和事件(如動(dòng)作識(shí)別、行為預(yù)測)
5 計(jì)算機(jī)視覺的應(yīng)用
1、安全監(jiān)控
自動(dòng)檢測和識(shí)別異常行為。
如公共區(qū)域攝像頭自動(dòng)檢測火災(zāi)煙霧并聯(lián)動(dòng)消防系統(tǒng)
2、人臉識(shí)別:用于安防、支付及身份認(rèn)證。
3、無人駕駛:車輛和行人的檢測、車道線識(shí)別等。
4、醫(yī)學(xué)圖像分析:輔助醫(yī)生進(jìn)行疾病診斷。
5、工業(yè)檢測:用于質(zhì)量檢測,如產(chǎn)品缺陷檢測。
6、零售業(yè):顧客行為追蹤、庫存管理。
7、制造業(yè):預(yù)測性維護(hù)、缺陷檢測。
8、農(nóng)業(yè):精準(zhǔn)農(nóng)業(yè)、病蟲害檢測。
9、保險(xiǎn)業(yè):理賠處理、風(fēng)險(xiǎn)評估。
10、安防:識(shí)別顧客、改進(jìn)港口貨物檢驗(yàn)等
本文由人人都是產(chǎn)品經(jīng)理作者【諾兒筆記本】,微信公眾號:【諾兒筆記本】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!