表示數據集的常用方法
表示數據集的常用方法是設計矩陣(design matrix)。
設計矩陣的每一行包含一個不同的樣本。每一列對應於不同的特征。
例如,Iris數據集包含150個樣本,每個樣本有4個特征。這意味着我們可以將數據集表為設計矩陣 。
當然,每個樣本都可以表示成向量,並且這些向量的維度相同,才能將一個數據集表示成設計矩陣。在許多情況下,存在着不同類型的異構數據,由於其向量的維度不同,無法表示為設計矩陣的形式。此時,不會將數據集表示成m行的矩陣,而是表示為M個元素的結合:
這種方式意味着和可以有不同的大小。
