數據的相關性
- 相關性用相關系數來度量,相關系數種類如下圖所示。相關系數絕對值越大表是相關性越大,相關系數取值在-1–1之間,0表示不相關。
數據的相似性
- 相似度用距離來度量,相似度度量指標種類如下圖所示。相似度通常是非負的,取值在0-1之間。距離越大,相似性越小,在應用過程中要注意計算的是相似度還是距離。
區別:
- 相關性是描述數據屬性的,比如抽不抽煙和有沒有得肺癌,是兩個屬性,兩個屬性之間有相關系數度量,如果相關屬性為0,表示不相關,就是抽不抽煙和得不得肺癌沒有關系
- 相似性是描述數據對象的,兩個對象數據對象的相似性,也可以說是兩個對象的鄰近度,有多種度量方法,來表示對象間的相似程度
參考鏈接:相關性和相似性度量
https://blog.csdn.net/weixin_37801695/article/details/80622893