最近想了解下ocr相關的知識,一些基礎知識做個記錄。
什么是圖像?
定義為二維函數f(x,y),其中,x,y是空間坐標,f(x,y)是點(x,y)的幅值。
灰度圖像是一個二維灰度(或亮度)函數f(x,y)。
彩色圖像由三個(如RGB,HSV)二維灰度(或亮度)函數f(x,y)組成。
什么是數字圖像?
1. 像素組成的二維排列,可以用矩陣表示。
2. 對於單色(灰度)圖像而言,每個像素的亮度用一個數值來表示,通常數值范圍在0到255之間,0表示黑、255表示白,其它值表示處於黑白之間的灰度。
3. 彩色圖像可以用紅、綠、藍三元組的二維矩陣來表示。
通常,三元組的每個數值也是在0到255之間,0表示相應的基色在該像素中沒有,而255則代表相應的基色在該像素中取得最大值。
數字圖像的像素表示
什么是像素?
數字圖像由二維的元素組成,每一個元素具有一個特定的位置(x,y)和幅值f(x,y),這些元素就稱為像素
圖像的采樣和量化
大多數傳感器的輸出是連續電壓波形
為了產生一幅數字圖像,需要把連續的感知數據轉化為數字形式
這包括兩種處理:取樣和量化
取樣:圖像空間坐標的數字化
量化:圖像函數值(灰度值)的數字化
圖像采樣
空間坐標(x,y)的數字化被稱為圖像采樣
確定水平和垂直方向上的像素個數N、M
圖像的量化
函數取值的數字化被稱為圖像的量化,如量化到256個灰度級
圖像的采樣和量化
非統一的圖像的采樣
在灰度級變化尖銳的區域,用細膩的采樣,在灰度級比較平滑的區域,用粗糙的采樣
非統一的圖像的量化
在邊界附近使用較少的灰度級。剩余的灰度級可用於灰度級變化比較平滑的區域
避免或減少由於量化的太粗糙,在灰度級變化比較平滑的區域出現假輪廓的現象
數字圖像的表示
二維離散亮度函——f(x,y)
x,y說明圖像像素的空間坐標
函數值f 代表了在點(x,y)處像素的灰度值
二維矩陣——A[m,n]
m , n說明圖像的寬和高。
矩陣元素a(i,j)的值,表示圖像在第i行,第j 列的像素的灰度值;i,j表示幾何位置
圖像的質量:1、層次
灰度級:表示像素明暗程度的整數量
例如:像素的取值范圍為0-255,就稱該圖像為256個灰度級的圖像
層次:表示圖像實際擁有的灰度級的數量
例如:具有32種不同取值的圖像,可稱該圖像具有32個層次
圖像數據的實際層次越多,視覺效果就越好
圖像的質量:2、對比度
對比度:是指一幅圖像中灰度反差的大小
對比度= 最大亮度/ 最小亮度
圖像的質量:3、清晰度
與清晰度相關的主要因素
亮度
對比度
尺寸大小
細微層次
顏色飽和度
像素間的一些基本關系
相鄰像素:
4鄰域
D鄰域
8鄰域
連通性
4連通
8連通
m連通
距離
相鄰像素——4鄰域
4鄰域:像素p(x,y)的4鄰域是:
(x+1,y);(x-1,y);(x,y+1);(x,y-1)
用N4(p)表示像素p的4鄰域
相鄰像素——D鄰域
D鄰域定義:像素p(x,y)的D鄰域是:
對角上的點(x+1,y+1);(x+1,y-1);(x-1,y+1);(x-1,y-1)
用ND(p)表示像素p的D鄰域
相鄰像素——8鄰域
8鄰域定義:像素p(x,y)的8鄰域是:
4鄰域的點+ D鄰域的點
用N8(p)表示像素p的8鄰域。
N8(p) = N4(p) + ND(p)
像素間的連通性
連通性是描述區域和邊界的重要概念
兩個像素連通的兩個必要條件是:
兩個像素的位置是否相鄰
兩個像素的灰度值是否滿足特定的相似性准則(或者是否相等)
4連通、8連通、m連通的定義
像素的連通性——4連通
對於具有值V的像素p和q,如果q在集合N4(p)中,則稱這兩個像素是4連通的
像素的連通性——8連通
對於具有值V的像素p和q,如果q在集合N8(p)中,則稱這兩個像素是8連通的
像素的連通性——m連通
對於具有值V的像素p和q,如果:
I. q在集合N4(p)中,或
II. q在集合ND(p)中,並且N4(p)與N4(q)的交集為空(沒有值V的像素),則稱兩個像素是m連通的,即4連通和D連通的混合連通。