python的高級數組之稀疏矩陣


 

  1. 稀疏矩陣的定義:

具有少量非零項的矩陣(在矩陣中,若數值0的元素數目遠多於非0元素的數目,並且非0元素分布沒有規律時,)則稱該矩陣為稀疏矩陣;相反,為稠密矩陣。非零元素的總數比上矩陣所有元素的總數為矩陣的稠密度。

稀疏矩陣的兩個動機:稀疏矩陣通常具有很大的維度,有時甚大到整個矩陣(零元素)與可用內存不想適應;另一個動機是避免零矩陣元素的運算具有更好的性能。

  1. 稀疏矩陣的格式

存儲矩陣的一般方法是采用二維數組,其優點是可以隨機地訪問每一個元素,因而能夠容易實現矩陣的各種運算。對於稀疏矩陣,采用二維數組的存儲方法既浪費大量的存儲單元來存放零元素,又要在運算中浪費大量的時間來進行零元素的無效運算。因此必須考慮對稀疏矩陣進行壓縮存儲(只存儲非零元素)。

Scipy.sparse模塊提供了許多來自於稀疏矩陣的不同存儲格式。這里僅描述最為重要的格式CSRCSCLILCSRCSC是用於矩陣-矩陣和矩陣-向量運算的有效格式,LIL格式用於生成和更改稀疏矩陣。Python不能自動創建稀疏矩陣,所以要用scipy中特殊的命令來得到稀疏矩陣。

(1) 壓縮稀疏行(CSRCompressed Sparse Row):或csr_matrix  按行對矩陣進行壓縮的。

   CSR使用了三個數組,分別為數值、行偏移(表示某一行的第一個元素在數值里面的起始偏移位置,在行偏移的最后補上矩陣總的元素個數)、列號。CSR是一種編碼的方式

一維數組data(數值):有序地存儲了所有的非零值,它具有與非零元素同樣多數量的元素,通常由變量nnz表示。

一維數組indptr(行偏移量):包含了證書使得indptr[i]data中元素的索引,它是行i中的第一個非零元素。如果整個行i為零,則indptr[i]==indptr[i+1]

如初始矩陣有m行,則len(indptr)==m+1

一維數組Indices(列號:: 其使用如下方式包含列索引信息:indices[indptr[i]:indptr[i+1]]是一個具有行i中非零元素的列索引的整數數組。Len(indice)==len(data)==nnz

 

備注:列索引表示數值所在的列號,從0開始。

      數組data:包含矩陣中的非零元素,以行優先的形式保存。

    行偏移:CSR中行索引被壓縮,沒有行索引,這里用行偏移表示行索引。

實例:

             

如上圖所示:data=(1,7,2,8,5,3,9,6,4)

            Indices=(0,1,1,2,0,2,3,1,3)    #列索引

            Indptr=(0,2,4,7,9)  #行偏移(表示某一行的第一個元素在數值里面的起始偏移位置,在行偏移的最后補上矩陣總的元素個數)

Python中使用:

import numpy as np

from scipy.sparse import csr_matrix

indptr = np.array([0, 2, 3, 6])

indices = np.array([0, 2, 2, 0, 1, 2])

data = np.array([1, 2, 3, 4, 5, 6])

A=csr_matrix((data, indices, indptr), shape=(3, 3)).toarray() #生成CSR格式的矩陣

print(A)    #運行結果:

[[1 0 2]

 [0 0 3]

 [4 5 6]]

     解析:第i行的列索引存儲在indices[indptr[i]:indptr[i+1]],對應的值為data[indptr[i]:indptr[i+1]]。即例如第0行的列索引為indices[0:2]=[0,2](第i行中非零元素的列索引組成的整數數組),值為data[0:2]=[1,2];1行的列索引為indices[2:3]=[2],值為data[2:3]=[3]

(2) 稀疏列矩陣CSCCompressed Sparse Column,用於CSC格式的類型為:csc_matrix  按列對矩陣進行壓縮的。

  CSR格式相比唯一的不同點是indptrindices數組的定義,該定義與列有關。

CSC格式的實例:

import numpy as np

import scipy.sparse as sp

A=np.array([[1,0,2,0],[0,0,0,0],[3,0,0,0],[1,0,0,4]])

AS=sp.csc_matrix(A)

Print(AS)

print(AS.data)

print(AS.indptr)

print(AS.indices)

print(AS.nnz)    #運行結果:

[1 3 1 2 4]

[0 3 3 4 5]     #注意此處,同一矩陣CSR格式的indptr[0 2 2 3 5]

[0 2 3 0 3]

5

(3) 基於行的鏈表格式:LILRow-Based Linked List Format

 1. 鏈表稀疏格式在列表數據中以行方式存儲非零元素,

列表data: data[k]是行k中的非零元素的列表。如果該行中的所有元素都為0,則它包含一個空列表。

列表rows: 是在位置k包含了在行k中的非零元素列索引列表。

LIL格式的同一示例:

import numpy as np

import scipy.sparse as sp

A=np.array([[1,0,2,0],[0,0,0,0],[3,0,0,0],[1,0,0,4]])

AS=sp.lil_matrix(A)

print(AS.data)

print(AS.rows)

print(AS.nnz)  #運行結果:

[list([1, 2]) list([]) list([3]) list([1, 4])]

[list([0, 2]) list([]) list([0]) list([0, 3])]

5

 2. LIL格式更改和切割矩陣:

LIL格式最適合切片的方法,即以LIL格式提取子矩陣,並通過插入非零元素來改變稀疏模式。

例如:提取

import numpy as np

import scipy.sparse as sp

A=np.array([[1,0,2,0],[0,0,0,0],[3,0,0,0],[1,0,0,4]])

AS=sp.lil_matrix(A)

print(AS)

BS=AS[0:2,0:3]      #切片提取01行,012列組成的子矩陣

print(BS)

print(BS.data)

print(BS.rows)   

#運行結果:

  (0, 0)        1

  (0, 2)        2

[list([1, 2]) list([])]

[list([0, 2]) list([])]

更改:插入新的非零元素會自動更新屬性

AS[0,1]=17

print(AS.data)

print(AS.rows)

print(AS.nnz)  

#結果: [list([1, 17, 2]) list([]) list([3]) list([1, 4])]

[list([0, 1, 2]) list([]) list([0]) list([0, 3])]

6

  1. 生成稀疏矩陣:

Numpy包的命令eyeidentitydiagrand都有其對應的稀疏矩陣,這些命令需要額外的參數來指定所得矩陣的稀疏矩陣格式。

import numpy as np

import scipy.sparse as sp

print(sp.eye(20,20,format = 'lil'))

print(sp.spdiags(np.ones((20,)),0,20,20,format = 'csr'))

print(sp.identity(20,format = 'csc'))

print(sp.rand(20,200,density=0.1,format='csr'))    #sp.rand命令需要額外的參數來描述生成隨機矩陣的密度。

  1. 稀疏矩陣方法

將稀疏矩陣類型轉換為另一種類型和數據或數組的方法:

AS.toarray  #轉換稀疏矩陣類型為數組

AS.tocsr

AS.tocsc

AS.tolil

 

#通過issparseisspmatrix_lilisspmatrix_cscisspmatrix_csr等方法檢查稀疏矩陣的類型。

import numpy as np

import scipy.sparse as sp

A=np.array([[1,0,2,0],[0,0,0,0],[3,0,0,0],[1,0,0,4]])

def sparse_sin(A):

    if not (sp.isspmatrix_csr(A) or sp.isspmatrix_csc(A)):

        A=A.tocsr()

        A.data=sin(A.data)

        return(A)

B=sparse_sin(A)

print(B)

 

#稀疏矩陣方法的dot,用於矩陣-矩陣或者矩陣-向量乘法運算,返回csr_matrixNumpy array

例如:import numpy as np

import scipy.sparse as sp

A=np.array([[1,0,2,0],[0,0,0,0],[3,0,0,0],[1,0,0,4]])

AS=sp.csr_matrix(A)

b=np.array([1,2,3,4])

c=AS.dot(b)     #結果為:[ 7  0 3  17]

print(c)

c=AS.dot(AS)        #結果仍為稀疏矩陣

print(c)

d=np.dot(AS,b)

print(d)     #不能返回期望的結果


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM