男女爽到高潮的免费网站,精品国产av色一区二区深夜久久

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊 | 登錄

計(jì)算機(jī)視覺入門總結(jié)：概念、發(fā)展歷史、基本原理、典型任務(wù)和應(yīng)用

諾兒筆記本

2025-06-02

0 評論 2043 瀏覽 0 收藏

11 分鐘

本文介紹計(jì)算機(jī)視覺的概念、發(fā)展歷史、基本原理、典型任務(wù)和應(yīng)用。從早期探索到深度學(xué)習(xí)革命，計(jì)算機(jī)視覺經(jīng)歷了多個(gè)階段的發(fā)展。

近兩年來 AI 產(chǎn)業(yè)已然成為新的焦點(diǎn)和風(fēng)口，各互聯(lián)網(wǎng)巨頭都在布局人工智能，不少互聯(lián)網(wǎng)產(chǎn)品經(jīng)理也開始考慮轉(zhuǎn)型 AI 產(chǎn)品經(jīng)理，入門AI產(chǎn)品經(jīng)理，或許你應(yīng)該了解一些技術(shù)，本文將為你詳細(xì)介紹計(jì)算機(jī)視覺。

01 什么是計(jì)算機(jī)視覺

計(jì)算機(jī)視覺是讓計(jì)算機(jī)通過攝像頭和算法模擬人類視覺能力的科學(xué)。

簡單來說，就是給機(jī)器裝上“眼睛”和“大腦”，使其能看懂圖片中的物體、場景、動(dòng)作等信息。

它要解決的問題就是：讓計(jì)算機(jī)看懂圖像或者視頻里的內(nèi)容。

比如：圖片里的寵物是貓還是狗？圖片里的人是老張還是老王？視頻里的人在做什么事情？

02 計(jì)算機(jī)視覺的發(fā)展歷史

1. 早期探索（1950s–1960s）

理論奠基：計(jì)算機(jī)視覺的雛形可追溯至1950年代，受神經(jīng)科學(xué)和心理學(xué)啟發(fā)。

1959年，David Hubel和Torsten Wiesel通過貓的視覺皮層實(shí)驗(yàn)，揭示了視覺系統(tǒng)對邊緣和方向敏感的特性，為后來的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)（如卷積神經(jīng)網(wǎng)絡(luò)）提供了生物學(xué)基礎(chǔ)。

初步算法：1963年，Larry Roberts（“計(jì)算機(jī)視覺之父”）在《三維物體的機(jī)器感知》中提出通過邊緣檢測和幾何模型從二維圖像重建三維結(jié)構(gòu)，奠定了早期圖像分析框架。

2. 理論體系形成（1970s–1980s）

Marr的視覺計(jì)算理論：1970年代末，David Marr提出系統(tǒng)的視覺處理框架，認(rèn)為視覺需經(jīng)歷“原始草圖→2.5D草圖→3D模型”三個(gè)階段，強(qiáng)調(diào)從圖像到三維結(jié)構(gòu)的層次化計(jì)算。

技術(shù)突破如下：

（1）邊緣檢測：Canny邊緣檢測算法（1986年）成為經(jīng)典。

（2）立體視覺：研究雙目視覺的視差計(jì)算，用于深度估計(jì)。

（3）模式識(shí)別：基于模板匹配和統(tǒng)計(jì)方法進(jìn)行物體分類。

3. 傳統(tǒng)方法時(shí)代（1990s–2000s）

特征工程主導(dǎo)：

（1）SIFT（1999）：David Lowe提出尺度不變特征變換，實(shí)現(xiàn)魯棒的特征匹配。

（2）HOG（2005）：方向梯度直方圖用于行人檢測。

（3）SVM與Boosting：支持向量機(jī)（SVM）、Adaboost等分類器結(jié)合手工特征，推動(dòng)目標(biāo)檢測（如Viola-Jones人臉檢測器）。

應(yīng)用場景擴(kuò)展：工業(yè)檢測、醫(yī)學(xué)影像分析（如MRI圖像分割）、光學(xué)字符識(shí)別（OCR）等技術(shù)逐步實(shí)用化。

4. 深度學(xué)習(xí)革命（2012至今）

ImageNet與AlexNet（2012）：

Alex Krizhevsky等人的AlexNet在ImageNet圖像分類競賽中大幅超越傳統(tǒng)方法（錯(cuò)誤率從26%降至15%），標(biāo)志著深度學(xué)習(xí)主導(dǎo)CV的開端。

關(guān)鍵技術(shù)進(jìn)展：

（1）卷積神經(jīng)網(wǎng)絡(luò)（CNN）：LeNet-5（1998）→VGGNet（2014）→ResNet（2015）等網(wǎng)絡(luò)不斷加深，解決梯度消失問題。

（2）目標(biāo)檢測：Faster R-CNN（2015）、YOLO（2016）等實(shí)現(xiàn)實(shí)時(shí)檢測。

（3）圖像生成：生成對抗網(wǎng)絡(luò)（GAN, 2014）和擴(kuò)散模型（Diffusion Models, 2020s）推動(dòng)高質(zhì)量圖像生成。

（4）硬件與數(shù)據(jù)驅(qū)動(dòng)：GPU算力提升、大規(guī)模標(biāo)注數(shù)據(jù)集（如COCO、Open Images）加速模型訓(xùn)練。

5. 當(dāng)前趨勢與挑戰(zhàn)

多模態(tài)融合：視覺與語言結(jié)合（CLIP、DALL·E）、視頻理解（Transformer模型）。

三維視覺：神經(jīng)輻射場（NeRF）、點(diǎn)云處理（PointNet）、SLAM技術(shù)。

邊緣計(jì)算與輕量化：MobileNet、EfficientNet等移動(dòng)端模型部署。

倫理與隱私：人臉識(shí)別濫用、深度偽造（Deepfake）風(fēng)險(xiǎn)、數(shù)據(jù)偏見問題。

03 計(jì)算機(jī)視覺的基本原理

計(jì)算機(jī)視覺的基本原理是利用圖像傳感器獲取目標(biāo)對象的圖像信號，然后將這些信號轉(zhuǎn)換成數(shù)字信號，并進(jìn)行多種運(yùn)算與處理，提取出目標(biāo)的特征信息進(jìn)行分析和理解，最終實(shí)現(xiàn)對目標(biāo)的識(shí)別、檢測和控制。

1、圖像獲取

通過攝像頭、傳感器等設(shè)備捕獲二維圖像或視頻，將物理世界的光信號轉(zhuǎn)換為數(shù)字信號

● ?設(shè)備類型：包括攝像頭（RGB相機(jī)、紅外相機(jī)）、掃描儀、激光雷達(dá)（LiDAR）等，不同設(shè)備適用于特定場景（如醫(yī)療CT掃描、自動(dòng)駕駛多模態(tài)感知）

● ?數(shù)據(jù)形式：生成二維圖像、三維點(diǎn)云或視頻序列，像素值可表征光強(qiáng)度、深度或材質(zhì)特性（如X射線吸收度）

● ?關(guān)鍵參數(shù)：分辨率、動(dòng)態(tài)范圍和采樣率直接影響后續(xù)處理效果，例如高分辨率攝像頭能捕捉更細(xì)膩的紋理

2、預(yù)處理

對獲取到的圖像進(jìn)行處理，常見的預(yù)處理方式有降噪、增強(qiáng)對比度（如醫(yī)療X光片去噪）、調(diào)整亮度等，提升圖像質(zhì)量。

3、特征提取

● 傳統(tǒng)方法：提取顏色（RGB/HSV）、邊緣（Sobel算子）、紋理（HOG）等特征

● 深度學(xué)習(xí)方法：通過卷積神經(jīng)網(wǎng)絡(luò)（CNN），模仿人眼視覺，用多層”濾網(wǎng)”逐步提取邊緣一形狀→物體特征，自動(dòng)學(xué)習(xí)高階特征（如人臉輪廓、物體形狀)；通過多模態(tài)融合，結(jié)合RGB圖像與深度圖（如Kinect傳感器）提升特征魯棒性