影響和相關的區別



返回 我的研究方向(Research Interests)



相關性

很多研究人員已經注意到:用戶的屬性和行為傾向於與他們的社會網絡相關( Sin-gla and Richardson ,2008)。

可以進行一個簡單的測試來分析這種與社會網絡有關的相關性(Easley and Kleinberg , 2010):
假設給網絡中的每個結點賦予一個二值屬性(比如,是否是吸煙者)。
如果結點的屬性與其社會關系相關,那么期望看到屬性相同的結點將在社會網絡上體現正相關。也就是說,吸煙者更喜歡跟吸煙者相聯系,不吸煙者更傾向於與不吸煙者相聯系。

因此,擁有不同屬性的結點(比如吸煙者和非吸煙者)之間產生聯系的概率會相對較低。

給定一個網絡,可以統計具有不同屬性的結點間存在有聯系的比例,然后將它與期望的概率相比較。
這個期望的概率是在假定結點屬性與社會關系獨立的情形下得到的。
如果這兩個量顯著不同,便可以認為結點的屬性與其所在的社會網絡相關。

具有不同屬性的結點之間存在聯系的概率可以按照如下方式進行計算:
在一個給定的社會網絡中,
假設其中有 p % 的結點是吸煙者,(1 - p %)的結點是不吸煙者。
若結點間聯系的產生獨立於用戶的吸煙行為,
那么兩個吸煙者之間產生聯系的概率為 p×p ,
兩個不吸煙者之間產生聯系的概率為(1-p)×(1 -p),
一個吸煙者與一個不吸煙者之間產生聯系的概率為1 -p^2- (1-p)^3=2p(1-p)。

因此,可以執行以下相關性測試(test for correlation)。

相關性測試( test for correlation)如果網絡中連接具有不同屬性的結點的邊的比例明顯地小於期望概率,那么結點的屬性與結點間的聯系的確存在相關性。

對於下圖所示的網絡,有4/9的結點是吸煙者,有5/9的結點是不吸煙者。
image
因此,吸煙者和不吸煙者之間存在聯系的期望概率為2x4/9×5/9 =49%。
換句話說,如果結點之間的聯系獨立於結點具有的屬性,那么將觀察到該網絡中有一半的聯系將存在於吸煙者和不吸煙者間。但是,從網絡中觀察到的卻是,吸煙者和非吸煙者之間聯系的數量只有2/14=14% < 49%。

於是,可以得到結論:
該網絡一定程度地體現了結點之間的聯系與結點吸煙行為的相關性。

現在,大家都非常清楚了這樣的一個結論:
網絡中的鄰接結點的行為之間或屬性之間都存在相關性。
有三種主要的社會過程可以解釋這種相關性:同質( ho-mophily)、環境( confounding〉和影響( influence) ( Anagnostopoulos et al. , 2008)。

三種主要的社會過程

同質( ho-mophily)

同質(homophily)( McPherson et al. , 2001)是社會學家生造的一個詞,用於解釋現實社會中具有某種相似性的人之間更容易建立聯系

這些相似性體現在:年齡、教育程度、種族、興趣等。用一句話來總結就是:“人以群分,物以類聚”。
同質假定了結點間屬性的相似性導致了結點之間聯系的產生,這樣的社會過程也叫做選擇( selection) ( Crandall et al. , 2008),也就是說人們傾向於選擇在某些方面與自己相似的人做朋友

環境(confounding)

環境(environment或confounding)用於分析環境對結點間產生聯系的影響*。由於結點間相關性可以由於外部環境的影響而產生。

這樣的環境在統計學中稱為混淆因子( confounding factor)( Pearl,2000)。
從本質上說,很多隱含變量能夠像結點的相似行為一樣導致社會聯系的產生。

例如,同住一個城市的兩個人比隨機選擇的兩個人更可能成為朋友,他們更可能在同一景點拍照,而且很可能都將照片發布到同一個社交網站,並且還可能在Flickr 上選擇同樣的標簽( Anagnostopoulos et al. , 2008)。

影響( influence)

影響(influence)是大家所熟知的導致鄰接結點間產生相關行為的社會過程

例如,如果某個人的大多數朋友都轉到汽車公司去了,那么他也可能因為朋友的影響而轉到汽車公司。在這樣的社會過程中,一個人的社會聯系和他的朋友的行為會影響他的決策。


參考:

[1] (美)唐磊( Lei Tang)等著;文益民,閉應洲譯.社會計算:社區發現和社會媒體挖掘[M].機械工業出版社:北京,2012


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM