Sandryhaila A, Moura J M F. Big data analysis with signal processing on graphs: Representation and processing of massive data sets with irregular structure[J]. IEEE Signal Processing Magazine, 2014, 31(5): 80-90.
用图信号处理进行大数据分析
discrete signal processing 离散信号处理 DSP
图上的DSP : DSPG
linear shift-invariant 线性平移不变滤波 LSI
这篇文章讨论了一种基于图上离散信号处理的大规模数据分析范式。 从经典信号处理理论到由一般图标记的数据,DSPG推广了信号处理的概念和方法。
1. 简介
2. 图上的信号处理
2.1 图信号
2.2 图位移
2.3 图滤波器和 z 变换
1. 简介
大量的原始数据能够用于决策制定和行动计划,但它们的容量和增长的复杂结构限制了许多广泛应用于小数据集的方法的可用性,如 主成分分析(PCA),奇异值分解(SVD),谱分析等。大数据的问题,需要新的范式,技术和算法。
一些算法可以用来表示和处理拥有复杂结构的大数据集。由多个参量描述的多维数据,可以用多路数组(multiway arrays)来表示和分析。多路数组已应用于生物医学信号处理,电讯和传感器信号处理等领域。
高维数据的低维表示已得到了广泛研究。在这些方法中,数据集被视为高维空间中的图,数据被投影到由图拉普拉斯本征基的子集生成的低维子空间。
图上的信号处理将经典信号处理推广到一般的图。
2. 图上的信号处理
2.1 图信号 graph signals
DSPG 研究对于数据集的分析和处理,其中的数据元素由依赖性,相似性,物理邻近,或其它性质相联系。这种关系通过一个图来表示:
G=( V, A) V是N个节点的集合;A 是图的权重邻接矩阵。每个数据元素对应一个节点 vn , 非0权重(矩阵元) An,m 表示从vm 到 vn 的有向边。
给定一个图, 数据集构成一个图信号,定义为一个映射:
$\mathbf{s}: v_{n} \mapsto \mathit{s}_{\mathit{n}} $
可以将图信号写为一个矢量:
$\mathbf{s}=\left [ s_{0} \ s_{1} \cdots s_{N-1}\right ]^{T} $
这个矢量不仅仅是个列表, 而是一个图。
(a): 有限周期时间序列, 用有向有环图标记。
(b) 传感器网络收集的天气数据。
(c)网站的特征为图信号。每个节点表示一个网站,有向边表示超链接。比如很多网站都指向某个网站,被指向的网站可能会具有很高的浏览量。
(d)社交网络中采集的图信号:个体特征构成了社交图中的图信号。节点表示个体,边将人们连接起来基于他们的友谊,合作或其他关系。
2.2 图位移 graph shift
在DSP中,信号位移由时间延迟执行。 一个长度为N 的延迟有限周期时间序列为: $\mathbf{\tilde{s}}_{n}=s_{\textup{mod}(n-1,N)} $ (商可以为负数,而余数必须为非负数)
即原信号为:
$ \mathbf{s}=\left [ s_{0} \ s_{1} \cdots s_{N-1}\right ]^{T} $
位移信号为:
$ \mathbf{\tilde{s}}_{n}=\left [ s_{N-1} \ s_{0} ,s_{1} \cdots s_{N-2} \right ]^{T}$
两者的关系为:
$\mathbf{\tilde{s}}=\mathbf{C}\mathbf{s}$
C为 N*N 循环位移矩阵:
$\mathbf{C}=\begin{bmatrix}
0&0 &0 &0 &0 &1 \\
1 & & & & & \\
& .& & & & \\
& &. & & & \\
& & &. & & \\
& & & &1 &
\end{bmatrix}$
这个矩阵C就是图 1(a)中周期时序图的邻接矩阵。对于此例,图位移的含义是:原图 vi 节点上的数值为 si , 图位移后 vi 节点上的数值为 si-1
推广到一般图的位移。 定义为一个局域操作: 将节点vn 上的数值 sn 被取代为vn的邻居节点上的值按边权重的加权:
$ \tilde{s}_{n}=\sum_{m\in \mathit{N}_{n}} \textbf{A}_{n,m}s_{m} $
这可以阐释为一阶差值,权重平均或图上的回归, 广泛应用于图回归,分布式一致性,电讯,Markov过程和其它方法。写成矢量形式为:
$ \tilde{\mathbf{s}}=\textbf{A}\mathbf{s} $
显然,图位移是时间位移 C 的推广。
注意: 图位移定义为其它的操作也是可能的。上面定义的优势是: 它能引出一个对于线性对易滤波器的信号处理框架。
2.3 图滤波器和 z 变换
在信号处理中,一个滤波器是一个系统 H(·) 对于输入信号 s 输出一个信号为:
$ \tilde{\mathbf{s}}=\mathbf{H}(\mathbf{s}) $
最广泛使用的滤波器是线性平移不变滤波器—— LSI。其中平移不变又称为对易。
z 变换为DSP中的信号和滤波器提供了一种方便的表示。
将时间延迟 C 记为 $z^{-1}$ , 那么
$ \left \{ \left ( z^{-1} \right )^{0} , \left ( z^{-1} \right )^{1}, \cdots ,\left ( z^{-1} \right )^{N-1} \right \} $ 中:
(z-1)0=I ,
$\mathbf{z^{-1}}=\begin{bmatrix}
0&0 &0 &0 &0 &1 \\
1 & & & & & \\
& .& & & & \\
& &. & & & \\
& & &. & & \\
& & & &1 &
\end{bmatrix}$
$\mathbf{ \left (z^{-1} \right )^{2} }=\begin{bmatrix}
0&0 &0 &0 &1 &0 \\
0 & & & & & 1\\
1& & & & & \\
&. & & & & \\
& &. & & & \\
& & &1 & &
\end{bmatrix}$
……
$\mathbf{ \left (z^{-1} \right )^{\mathit{N}-1} }=\begin{bmatrix}
0&1 &0 &0 &0 &0 \\
0 &0 &1 & & & \\
& & &. & & \\
&& & &. & \\
& & & & &1 \\
1& & & & &
\end{bmatrix}$
而 (z-1)N=(z-1)0 , …… , (z-1)2N-1=(z-1)N-1
即 (z-1)m=(z-1)mod(m,N)
那么,所有的 LSI 滤波器都可以写成 $ z^{-1}$ 的多项式:
$h\left ( z^{-1} \right )=\sum_{n=0}^{N-1}h_{n}z^{-n}$
类似地,有限时间信号写为:(把信号表示为一个矩阵)
$ s\left ( z^{-1} \right )=\sum_{n=0}^{N-1}s_{n}z^{-n}$
那么, 滤波器的输出也用一个矩阵表示为:
$\tilde{s}(z^{-1})=h(z^{-1})s(z^{-1})$
由上式推导,得到输出信号和输入信号之间的关系:
$ \tilde{\mathbf{s}}=h(\mathbf{C})\mathbf{s} $
其中,矩阵 h(C) 为
$h(\mathbf{C})=\begin{bmatrix}
h_{0} & h_{N-1} &\cdots &h_{1} \\
h_{1}&h_{0} & \cdots &h_{2} \\
\vdots & & &\vdots \\
h_{N-1}&\cdots &h_{1} &h_{0}
\end{bmatrix}$
结论: LSI 滤波器是一个 N*N 的循环矩阵。
DSPG 将滤波器推广到LSI图滤波器: