1. 公司職員關系圖表
節點和邊界數據
節點是指每個節點本身的數據,代表公司職工的名稱;屬性(Country)、分類(Category)和地區(Region,給每個節點定義的屬性數據)。文件必須是.csv的格式。
連接線數據,不同的兩個點之間的關系,權重(可以用各種方式做一個度量)。節點的數據結構可以是以點的形式,一個行數據是一個節點它有它的屬性;邊線的數據它每一行是兩個點之間的關系。
節點數據名第一個字段必須是Id(第一個必須大寫,第二個字母d小寫),后邊的字段Country、Category、Region、Level是可以變的(它們是點的屬性);
邊線的字段名必須target和source,並且內容是一一對應的(就是target和source所對應的點必須在node文件里邊必須是能夠對應的上的,否則無法識別) 一個edge代表了點與點間的關系,而node代表每個點的屬性,它肯定要有個標簽去對應,這個標簽就是它的Id名稱,
第一步:導入數據,node和edge
節點---node; 邊---edge。
第二步:按照不同的國家做一個顏色的界定
第三步:設置下
節點有多大,里邊的字體就有多大。
還是密密麻麻的,節點按照某種關系做一個輸出,連出度越大,這個點本身越大。
連出度代表我這個人跟多少人是有關系的;
度就是我這個點跟其他點的連接關系;連出度是往外連接的,連入度是從外邊往里邊連接的。整個度是兩個的求和。
第四步:參數
網絡直徑是點與點之間的最小距離
Betweenness Centrality:網絡中任意兩個點之間的最短路徑,如果這個最短 路徑都經過某個節點,那么這個節點的最短基數越高。
Closeness centrality
Eccentricity
Harmonic closeness centrality
把布局再調整下: ForceAtlas2 收縮 擴展
Betweenness Centrality中層領導(連接高層領導又連接下層的一個角色);
Closeness centrality: 所有跟我有連接的平均值是最短的;在公司中他跟誰都近,但連入度不一定是最高的
這個不是特別明顯,大家的值的區別都不是很大,大小都是差不多大。
2. 案例:導演演員關系網絡可視化
如何做一個篩選和數據清洗?通過可視化的方式直接清洗它
主要用到過濾和統計的模塊
第一步:
加載數據---->> 數據太多,需要進行篩選和處理,篩選之后,統計計算只會計算篩選下來的內容;
第二步:
進行過濾
數據清洗
清洗的邏輯有:巨人組件參數和K核心
巨人組件是會保留一個組團中連接最多的那些節點,由於本身又一些連接關系,但是會有一些點沒有聯系(相當於沒有那個參數),由於重力的關系會實現一個簇。巨人組件就會自動的刪除周邊這些點。
把相互之間的點的度看成它的一個均值,每一個點都有一個度,K核心可以按照這個度做一個篩選,比如K(核心)=0,基本上不會做任何的篩選,度非常小的接線還會保留。
K=4的時候它就會把那些小的接線給去掉了。
通過這兩個方法不斷去優化這些數據點的個數。節點數盡 量在1000個左右,還可以通過相互度的范圍做下一步的篩選。
1000個節點(經驗數值)以下的好做運算。
第三步:
再通過模塊化對整個數據做一個聚類,得到里邊的模塊。最后這個模塊就會呈現出我們想要的效果。
在這一步我們需要不斷的去調整參數,去做這個設置,解析度越大,簇的社區越少。
布局 用擴展和ForceAtlas2來進行調節。
哪些點是屬於黏度比較高的?算下網絡的直徑,
預覽
度范圍的操作結果如下: