一、視覺感知
人眼視覺結構
光線從光路系統投射到視網膜上(角膜->前房->晶狀體->視網膜)
視網膜上的中央凹一般作為視覺的中心點,中央凹附近為黃斑,在盲點附近沒有視網膜細胞,但存在神經(將視覺信息傳輸到大腦)
視網膜由視錐細胞和視桿細胞組成
視錐細胞(約650萬):明視覺細胞,感知成像的形狀,人的視網膜中有三種不同的視錐細胞,對光譜的敏感值分別在:
- 430nm(藍光)
- 540nm(綠光)
- 570nm(紅光)
人的顏色視覺主要由這三種顏色的光構成(三原色)
視桿細胞(約一億):暗視覺細胞,負責觀察物體運動,黑暗下作用
在中央凹處(0°)視錐細胞最多,視覺最清晰;視桿細胞大約離中央凹細胞20°開始分布較多,在0°趨於0。
人眼視覺特性
- 時間特性:>15幀/s,可以得到連貫的感覺
- 亮度適應:改變靈敏度適應光強變動,在10e-6~10e4 mL的范圍都可調,主觀亮度是光強對數的函數
- 對比靈敏度:人眼能分辨的強度差δI是I(背景)的函數,δI/I(韋伯分數)在相當寬的范圍近似為2%,在過亮/過暗時需要更大的δI。
- 人眼的空間分辨率為1′(在1′夾角剛好能分辨頂點和底點的區別)
- 對灰度的分辨能力約64級
- 人眼成像模型參照小孔成像模型,在視網膜上成倒實像
- 馬赫帶效應:人類視覺系統有過高/過低估計不同亮度區域邊界值的現象。(顏色分界線比較明顯)
這是由於錐狀細胞感知形狀,其敏感度對中心點的值較大,向兩側衰減(看起來像low pass filter)。
我們可以用側抑制來解釋馬赫帶的產生。側抑制是指視網膜上相鄰的感光細胞相互抑制對光線反應的現象,即某個感光細胞受到光線刺激時,若它的相鄰感光細胞再受到刺激,則它的反應會減弱。由於相鄰細胞間存在側抑制的現象,來自暗明交界處亮區一側的抑制大於來自暗區一側的抑制,因而使暗區的邊界顯得更暗;同樣,來自暗明交界處暗區一側的抑制小於亮區一側的抑制,因而使亮區的邊界顯得更亮。可看作視錐細胞對光的濾波。(有一說一有點像吉布斯效應)
- 同時對比度:人的眼睛無法判斷出視場中目標物的絕對亮度。因為人類視覺對亮度的響應與背景有關。
- 空間錯覺和假輪廓——沒啥好說的
光和電磁波譜
電磁波譜圖
可見光譜:380nm~780nm
二、圖像感知與獲取
傳感器
- 膠片(化學反應,如氧化銀)->模擬圖像,需要數字化
- 電荷耦合器件(Charge Coupled Device,CCD):將光能轉換為電荷,並存儲->經放大器轉化為電壓量。CCD工作原理 在靈敏度、解析度、分辨率、噪聲控制、成像等方面都優於CMOS。
- CMOS圖像傳感器 低成本低功耗,高整合度
成像方式:
- 單個傳感器
- 線陣式傳感器(掃描儀)
- 傳感器陣列(數碼相機)
二維圖像的獲取:
- 傳感器線性移動,膠片轉動
- 線陣傳感器線性移動掃描圖像
- 對三維圖像(CT/MRI et al),物體旋轉掃描->三維重建,之后會在醫學成像原理寫。
三、圖像的數字化
數字圖像的表示:z=f(x,y),x軸向下,y軸向右。
模擬圖像的數字化
采樣(Sampling):將在空間上連續的圖像轉換成離散的采樣點(即像素)集的操作。可以是等間隔采樣,可以是非均勻采樣。
二維采樣定理(Nyguist准則)在一維的基礎上推導:1/δx,1/δy≥2倍圖像函數上限頻率(像素的周期變化率)--一般情況都是滿足的(啊還挺喜歡像素風格和low poly的
采樣間隔太小,則增大數據量;太大,則會發生信息的混疊,導致細節無法辨認。
量化(Quantization):把采樣后所得的各像素的灰度值從模擬量到離散量的轉換稱為圖像灰度的量化。(k級量化,灰度值有2^k個。最低的2級->二值圖像)
編碼(Coding):一般,采樣量化后,需對所得數據先進行PCM編碼(脈碼調制)。
空間和灰度分辨率
圖像分辨率:
- 圖像分辨率:組成一幅圖像的像素密度(圖幅參數)
- 顯示分辨率:顯示器上能顯示出的像素數目
假設用交替的黑色和白色垂線來構造圖形,其中線寬W個單位,線對的寬度就是2W,每單位距離有1/2W個線對。如線寬0.1mm,每單位距離(1mm)就有5個線對。一般用每英寸點數(dpi)來衡量。dpi高到一定程度絕對清晰度仍增加,但由於人眼的視覺特性會趨於飽和。
像素深度:指存儲每個像素所用的位數(k),也用來度量圖像的分辨率。
位面數量:圖像通道數,如灰度圖單通道,彩圖RGB三通道。
圖像存儲空間的計算
假設圖像尺寸為M、N(長寬),灰度級數為G=2^k,存儲這幅圖像所需空間為:
bit(位數)=M*N*k
Byte(字節)=M*N*K/8
四、像素間的基本關系
像素的鄰域與鄰接
鄰域:在一定意義下,與某一像素相鄰的像素的集合。
常用4鄰域,記作N4(p):
坐標表示:
每個像素與中心點距離為1
對角鄰域,記作:ND(p):
坐標表示:
每個像素與中心點距離為 \(\sqrt{2}\)
8鄰域,記作N8(p):
N8(p)=N4(p)+ND(p)
像素鄰接
空間上相鄰,且像素灰度值相似。
鄰接:
1.是否接觸(鄰域關系)?
2.灰度值是否滿足某個特定的相似准則V。如:兩像素灰度值相等/同在一個灰度值集合中。
三種鄰接:
假設V為灰度值集合
-
4鄰接:兩個像素p和q在V中取值且q在N4(p)中。
-
8鄰接:兩個像素p和q在V中取值且q在N8(p)中。
舉例:
- m鄰接(混合鄰接)
對於上圖右上角的1走到右下角有兩條通路(二義性),為了保證像素p與q之間存在一條不含回路的通路(單通路),定義了m鄰接:
p和q在V中取值,且滿足以下條件之一:
1.q在N4(p)中
2.q在ND(p)中且集合N4(p)∩N4(q)是空集。(q在p的對角鄰域且他們之間沒有4鄰域通路/只存在8鄰域相接)
實質:像素間同時存在4-鄰接和8-鄰接時優先采用4-鄰接,屏蔽存在4-鄰接時的8-鄰接。
連通性
通路:像素p到q之間的通路由一系列具有坐標的像素的獨立像素組成。其中兩兩像素鄰接。
連通:通路上所有像素灰度值滿足相似准則。
連通的種類:
- 4-連通
- 8-連通
- m-連通
距離的度量
1.歐氏距離:
對於像素p(x,y)與q(s,t),
\(D_e(p,q)=\sqrt[2]{[(x-s)^2+(y-t)^2]}\)
距點(x,y)的歐式距離小於或等於某一值的像素形成一個中心在(x,y)的半徑為的圓平面。
2.城市距離/街區距離:
對於像素p(x,y)與q(s,t),
\(D_4(p,q)=|x-s|+|y-t|\)
距點(x,y)的城市距離小於或等於某一值的像素形成一個中心在(x,y)的菱形。
對圖像的操作
圖像內插
內插:用於調整圖像的大小,是基本的圖像Resampling方法。具體的操作會在后續章節寫到(或者啥時候有時間了再補吧()。
內插的種類:
- 最近鄰內插
- 雙線性內插
- 雙三次內插
圖像的算術操作
加:對帶噪圖像相加求均值(由於噪聲是不相關且均值為0的,但顯然會降低清晰度)
減:圖像增強(如血管造影,反銳化掩模)
乘&除:陰影校正(原圖×陰影模式/原圖×ROI模板)
空間操作
單像素操作
灰度映射(通過變換函數轉換灰度值)
幾何變換與配准(Registration)
最常用的空間坐標變換是仿射變換,其一般形式為
即用原圖像乘一個變換矩陣。
常用的仿射變換表:
灰度內插:由於幾何變換(如放大)將圖像的像素重新定位到新的位置,需要對新的位置賦予灰度值,因此在做仿射變換時通常還需要用到內插。對於仿射變換,有兩種方法實現:
前向映射:掃描輸入圖像的像素,並在每個位置直接計算輸出圖像中相應像素的空間位置組成。問題是:輸入圖像中的一個/多個像素可能被變換到輸出圖像的同一位置(如縮小),產生了合並多個輸出值的問題,此外一些輸出位置可能並沒有需要賦值的像素。
反向映射:掃描輸出圖像的像素位置,並對每一個位置使用上式(輸入=輸出x變換矩陣的逆)計算輸入圖像的位置,然后內插是用最近的輸入像素之一決定輸出像素的灰度值的。對於實現來說反向映射更為有效(Matlab就采用的此方法)
圖像配准:用於對齊兩幅/多幅相同場景的圖像。如在相同位置不同時間獲取的圖像,對它們進行分析,都要求對幾何畸變進行修正。
在這個問題中,我們已經有了輸入圖像和輸出圖像(參考圖像),但對輸入輸出之間的變換是不清楚的,解決的辦法之一是使用約束點/控制點。選擇控制點/使用特定算法獲取控制點后,根據控制點來實現圖像配准。
圖像變換
常見的有FT(空域-頻域),拉當變換,小波變換(wavelet)
統計特征
圖像的均值是對圖像明亮程度的度量
圖像灰度值的方差是對比度的度量
高階矩balabala...