1.數據可視化
數據的表達邏輯:
它可能是數據可視化、圖表的表現方式,通過數據本身的邏輯去對它學習,為什么用這個圖表去表示這個內容??
目的不在於分析過程,在於得到結果如何把它表達出來,是學習后面的這套邏輯。
數據可視化,以數據為工具,以可視化為手段,目的是描述真實,探索世界。為了表現內容,再是漂亮美觀;
Seaborn
Seaborn是基於matplotlib的python數據可視化庫,提供更高層次的API封裝,包括一些高級圖表可視化等工具。
可直接做一個Matplotlib圖表,通過seaborn來調色、設置風格做出好看的效果;同時seaborn有很多圖表自己的表達工具包如可表達分布式、相關性數據等
Bokeh
可建立一個可交互線上可視化服務器;
Gephi是一款開源免費跨平台的復雜網絡分析軟件,其主要用於各種網絡和復雜系統,動態和分層圖的交互可視化與探索開源工具;
空間可視化涉及多個軟件包括powermap, echarts等。
2.數據可視化技術體系
2.1 分析圖表(過程輔助)
單維度:柱狀圖、折線圖、餅圖、散點圖等
多維度圖表:熱圖、多系列箱圖、復雜的散點圖、矩陣圖等
空間圖表:
關系圖表:
2.2 動態交互(用一張表做交互)
動態交互:立足圖表本身,表達交互、結果呈現。
如百度開發的 Echarts(雨水流量關系圖等)、 百度圖說 (線上非編程類的)
2.3 商業智能:(業務層面的)
如儀表盤
線下的 tableau
商業智能 還有Microsoft PowerBI
脈策數據 Datamap
把前面數據分析的結果通過這種商業智能的形式展現出來,最后做一個實現。
3. 可視化表達的邏輯
在進行數據展示時可以展出它的比較邏輯、分布邏輯、構成邏輯、聯系邏輯;
對比比較來說:
不同項目的兩個變量可以用不等化的柱形圖去表示,每個項目可以理解為柱子,如4個柱子,在柱子里邊它有兩個變量去做比較,其中一個變量用柱子的高矮,一個變量用柱子的寬窄去比較; 多個項目做條形圖對比時,可以把它直接拉出多個柱子去做比較,如果是項目比較少可以做成單個多系列的圖表;
多種分類的圖表,矩陣圖表,按不同類別進行對比,同一個量在不同時間去做比較,如雷達圖按照周期,一個圓可以表示不同的時間,如一年里邊的變化,一個月31天的變化等。同樣的可以拿曲線圖表示不同時間節點的變化趨勢;同樣的可以拿柱狀圖表示不同時間內各個系列的變化關系,曲線圖可以理解成多個變量 按時間做的曲線圖;
分布
分布在Seaborn中有專門的一套去做,在前期對樣本數據做統計量分析非常關鍵的就是做分布分析;直方圖、密度圖,散點圖都可以做圖表表示的,直方圖、密度圖就是看整個變量數據分布的情況,散點圖可以看到兩個維度分布的情況。
聯系:
可以用散點圖、氣泡圖;兩個變量的散點圖做一般性回歸的時候就通過這個做直觀的判斷;
構成:
分為兩個維度: 一是分時間變化的維度;二是整個時間不變,一個靜態做維度的構成;
如時間維度不變,靜態的話以不同項目的占比,包括累計的變化情況,用到瀑布圖,包括堆疊的百分比圖(其實就是柱狀圖,總的是100%,個子高都是一樣但是里邊構成成分不一樣這樣一個堆疊的百分比圖);隨着時間的變化它是一個堆積的百分比的柱狀圖,再把不同時間的給它連起來,就可以看到一個趨勢圖在里邊,這是一個堆積的百分比,不看它的百分比,看它的總量就得到堆積的柱狀圖了。同時面積圖、曲線圖也是這個邏輯。 不同的圖表都有各自表達的關系,同時一個長得一樣的圖表,由於它的維度不一樣,它表達的內容也可以不一樣。如:拿一個堆疊的柱狀圖跟一樣的柱形圖做比較:雖然都是相互對比的情況,但我的系列是按不同分類去做比較和橫坐標按時間的推移去比較它表達的意思就不一樣。如果橫坐標只是不同的變量,它指的是不同變量之間的對比,如果橫坐標是個時間線,可能是同一個項目同一個量級的東西整個時間維度下的變化趨勢。
柱狀圖代表了量本身,折線圖代表的是一個占比;
用正確的圖表來表達合適的內容;