Sandryhaila A, Moura J M F. Big data analysis with signal processing on graphs: Representation and processing of massive data sets with irregular structure[J]. IEEE Signal Processing Magazine, 2014, 31(5): 80-90.
用圖信號處理進行大數據分析
discrete signal processing 離散信號處理 DSP
圖上的DSP : DSPG
linear shift-invariant 線性平移不變濾波 LSI
這篇文章討論了一種基於圖上離散信號處理的大規模數據分析范式。 從經典信號處理理論到由一般圖標記的數據,DSPG推廣了信號處理的概念和方法。
1. 簡介
2. 圖上的信號處理
2.1 圖信號
2.2 圖位移
2.3 圖濾波器和 z 變換
1. 簡介
大量的原始數據能夠用於決策制定和行動計划,但它們的容量和增長的復雜結構限制了許多廣泛應用於小數據集的方法的可用性,如 主成分分析(PCA),奇異值分解(SVD),譜分析等。大數據的問題,需要新的范式,技術和算法。
一些算法可以用來表示和處理擁有復雜結構的大數據集。由多個參量描述的多維數據,可以用多路數組(multiway arrays)來表示和分析。多路數組已應用於生物醫學信號處理,電訊和傳感器信號處理等領域。
高維數據的低維表示已得到了廣泛研究。在這些方法中,數據集被視為高維空間中的圖,數據被投影到由圖拉普拉斯本征基的子集生成的低維子空間。
圖上的信號處理將經典信號處理推廣到一般的圖。
2. 圖上的信號處理
2.1 圖信號 graph signals
DSPG 研究對於數據集的分析和處理,其中的數據元素由依賴性,相似性,物理鄰近,或其它性質相聯系。這種關系通過一個圖來表示:
G=( V, A) V是N個節點的集合;A 是圖的權重鄰接矩陣。每個數據元素對應一個節點 vn , 非0權重(矩陣元) An,m 表示從vm 到 vn 的有向邊。
給定一個圖, 數據集構成一個圖信號,定義為一個映射:
$\mathbf{s}: v_{n} \mapsto \mathit{s}_{\mathit{n}} $
可以將圖信號寫為一個矢量:
$\mathbf{s}=\left [ s_{0} \ s_{1} \cdots s_{N-1}\right ]^{T} $
這個矢量不僅僅是個列表, 而是一個圖。
(a): 有限周期時間序列, 用有向有環圖標記。
(b) 傳感器網絡收集的天氣數據。
(c)網站的特征為圖信號。每個節點表示一個網站,有向邊表示超鏈接。比如很多網站都指向某個網站,被指向的網站可能會具有很高的瀏覽量。
(d)社交網絡中采集的圖信號:個體特征構成了社交圖中的圖信號。節點表示個體,邊將人們連接起來基於他們的友誼,合作或其他關系。
2.2 圖位移 graph shift
在DSP中,信號位移由時間延遲執行。 一個長度為N 的延遲有限周期時間序列為: $\mathbf{\tilde{s}}_{n}=s_{\textup{mod}(n-1,N)} $ (商可以為負數,而余數必須為非負數)
即原信號為:
$ \mathbf{s}=\left [ s_{0} \ s_{1} \cdots s_{N-1}\right ]^{T} $
位移信號為:
$ \mathbf{\tilde{s}}_{n}=\left [ s_{N-1} \ s_{0} ,s_{1} \cdots s_{N-2} \right ]^{T}$
兩者的關系為:
$\mathbf{\tilde{s}}=\mathbf{C}\mathbf{s}$
C為 N*N 循環位移矩陣:
$\mathbf{C}=\begin{bmatrix}
0&0 &0 &0 &0 &1 \\
1 & & & & & \\
& .& & & & \\
& &. & & & \\
& & &. & & \\
& & & &1 &
\end{bmatrix}$
這個矩陣C就是圖 1(a)中周期時序圖的鄰接矩陣。對於此例,圖位移的含義是:原圖 vi 節點上的數值為 si , 圖位移后 vi 節點上的數值為 si-1
推廣到一般圖的位移。 定義為一個局域操作: 將節點vn 上的數值 sn 被取代為vn的鄰居節點上的值按邊權重的加權:
$ \tilde{s}_{n}=\sum_{m\in \mathit{N}_{n}} \textbf{A}_{n,m}s_{m} $
這可以闡釋為一階差值,權重平均或圖上的回歸, 廣泛應用於圖回歸,分布式一致性,電訊,Markov過程和其它方法。寫成矢量形式為:
$ \tilde{\mathbf{s}}=\textbf{A}\mathbf{s} $
顯然,圖位移是時間位移 C 的推廣。
注意: 圖位移定義為其它的操作也是可能的。上面定義的優勢是: 它能引出一個對於線性對易濾波器的信號處理框架。
2.3 圖濾波器和 z 變換
在信號處理中,一個濾波器是一個系統 H(·) 對於輸入信號 s 輸出一個信號為:
$ \tilde{\mathbf{s}}=\mathbf{H}(\mathbf{s}) $
最廣泛使用的濾波器是線性平移不變濾波器—— LSI。其中平移不變又稱為對易。
z 變換為DSP中的信號和濾波器提供了一種方便的表示。
將時間延遲 C 記為 $z^{-1}$ , 那么
$ \left \{ \left ( z^{-1} \right )^{0} , \left ( z^{-1} \right )^{1}, \cdots ,\left ( z^{-1} \right )^{N-1} \right \} $ 中:
(z-1)0=I ,
$\mathbf{z^{-1}}=\begin{bmatrix}
0&0 &0 &0 &0 &1 \\
1 & & & & & \\
& .& & & & \\
& &. & & & \\
& & &. & & \\
& & & &1 &
\end{bmatrix}$
$\mathbf{ \left (z^{-1} \right )^{2} }=\begin{bmatrix}
0&0 &0 &0 &1 &0 \\
0 & & & & & 1\\
1& & & & & \\
&. & & & & \\
& &. & & & \\
& & &1 & &
\end{bmatrix}$
……
$\mathbf{ \left (z^{-1} \right )^{\mathit{N}-1} }=\begin{bmatrix}
0&1 &0 &0 &0 &0 \\
0 &0 &1 & & & \\
& & &. & & \\
&& & &. & \\
& & & & &1 \\
1& & & & &
\end{bmatrix}$
而 (z-1)N=(z-1)0 , …… , (z-1)2N-1=(z-1)N-1
即 (z-1)m=(z-1)mod(m,N)
那么,所有的 LSI 濾波器都可以寫成 $ z^{-1}$ 的多項式:
$h\left ( z^{-1} \right )=\sum_{n=0}^{N-1}h_{n}z^{-n}$
類似地,有限時間信號寫為:(把信號表示為一個矩陣)
$ s\left ( z^{-1} \right )=\sum_{n=0}^{N-1}s_{n}z^{-n}$
那么, 濾波器的輸出也用一個矩陣表示為:
$\tilde{s}(z^{-1})=h(z^{-1})s(z^{-1})$
由上式推導,得到輸出信號和輸入信號之間的關系:
$ \tilde{\mathbf{s}}=h(\mathbf{C})\mathbf{s} $
其中,矩陣 h(C) 為
$h(\mathbf{C})=\begin{bmatrix}
h_{0} & h_{N-1} &\cdots &h_{1} \\
h_{1}&h_{0} & \cdots &h_{2} \\
\vdots & & &\vdots \\
h_{N-1}&\cdots &h_{1} &h_{0}
\end{bmatrix}$
結論: LSI 濾波器是一個 N*N 的循環矩陣。
DSPG 將濾波器推廣到LSI圖濾波器: