前言
數據分為兩類:歐幾里得數據與非歐幾里得數據

歐幾里得數據
特點:“排列整齊”,是一類具有很好的平移不變性的數據。
圖像中的平移不變性:即不管圖像中的目標被移動到圖片的哪個位置,得到的結果(標簽)應該相同的。
對於這類數據以其中一個像素為中心點,其鄰居節點的數量相同。可以很好的定義一個全局共享的卷積核來提取圖像中相同的結構。常見這類數據有圖像、文本、語言。
圖像:圖像是一種 $2D$ 的網格類型數據,通常用矩陣進行存儲。
文本:文本是一種 $1D$ 的網格類型數據,通常可以用向量進行存儲。對於文本,我們通常做法是去停用詞、以及高頻詞(DIFT),最后嵌入到一個一維的向量空間。

而且,因為這類型的數據排列整齊,不同樣本之間可以容易的定義出 "距離" 這個概念出來。我們假設現在有兩個圖片樣本,盡管其圖片大小可能不一致,但是總是可以通過空間下采樣的方式將其統一到同一個尺寸的,然后直接逐個像素點進行相減后取得平方和,求得兩個樣本之間的歐幾里德距離是完全可以進行的。如下式所見:
$d(\mathbf{s_i}, \mathbf{s_j}) = \dfrac{1}{2}||\mathbf{s_i}-\mathbf{s_j}||^2$
因此,不妨把圖片樣本的不同像素點看成是高維歐幾里德空間中的某個維度,因此一張 $m \times n$ 的圖片可以看成是 $m \times n$ 維的歐幾里德樣本空間中的一個點,而不同樣本之間的距離就體現在了樣本點之間的距離了。
非歐幾里得數據
它是一類不具有平移不變性的數據。這類數據以其中的一個為節點,其鄰居節點的數量可能不同。常見這類數據有知識圖譜、社交網絡、化學分子結構等等。
非歐幾里德結構的樣本總得來說有兩大類型,分別是圖(Graph)數據和流形數據( manifolds),如下圖所示:

圖數據

流形數據( manifolds)
這兩類數據有個特點就是,排列不整齊,比較的隨意。
具體體現在:對於數據中的某個點,難以定義出其鄰居節點出來,或者是不同節點的鄰居節點的數量是不同的,這個其實是一個特別麻煩的問題,因為這樣就意味着難以在這類型的數據上定義出和圖像等數據上相同的卷積操作出來,而且因為每個樣本的節點排列可能都不同,比如在生物醫學中的分子篩選中,顯然這個是一個Graph數據的應用,但是我們都明白,不同的分子結構的原子連接數量,方式可能都是不同的,因此難以定義出其歐幾里德距離出來,這個是和我們的歐幾里德結構數據明顯不同的。因此這類型的數據不能看成是在歐幾里德樣本空間中的一個樣本點了,而是要想辦法將其嵌入(embed)到合適的歐幾里德空間后再進行度量。而我們現在流行的 Graph Neural Network 便可以進行這類型的操作。這就是我們的后話了。
另外,歐幾里德結構數據所謂的“排列整齊”也可以視為是一種特殊的非歐幾里德結構數據,比如說是一種特殊的Graph數據,如下圖所示[5]:

因此,用Graph Neural Network的方法同樣可以應用在歐幾里德結構數據上,比如文獻[6]中report的結果來看,的確這樣是可行的。事實上,只要是賦范空間中的數據,都可以建立數據節點與數據節點之間的某種關聯,都可以嘗試用非歐幾里德結構數據的深度方法進行實驗
