看來還得和臨床結合才知道為什么提出問題
問題的背景
為什么提出PAM50分型,因為乳腺癌病人的異質性特別大,所以需要將這些病人進行一個分型,以便更好的治療。
發展的歷史
最初是根據免疫組化的三個指標進行分型的
- HR+ HER2-
- HR+ HER2+
- HR- HER2+
- TNBC
隨着RNA-seq的發展,得到的信息更多,於是提出了PAM50分型,也就是根據這50個分子去確定乳腺癌的表型。50個分子怎么確定的呢?又分為哪幾類呢?
50個分子的確定 :根據層次聚類的結果將病人分為5類,選擇每一類里面top10的基因,一共50個基因。
划分的五類[1]:
這兩個分型之間存在什么關系呢?下面是一篇文章計算出來的結果[2]
怎么計算
不講原理只放代碼感覺有點耍流氓,那還是先講原理把
首先根據找到的病人層次聚類,找到5組病人50個基因的中心(centroids),這個不用咱們去訓練,已經有公認的了,接着很簡單,來了一個新的病人,直接去看和哪個中心比較近就定為哪一類的病人。
簡單粗暴但是好用。至於這個距離怎么計算,歐氏距離,pearson,spearman系數均可以。
現在還有些論文在研究RNA-seq和digital multiplexed gene expression technologies計算出來的結果是否一致,發現大部分差不多[3]。
代碼
這里直接放上作者的代碼吧,還找了挺久的,里面最關鍵的是pam50_centroids.txt這個文件,記得把自己的基因表達數據scale一下就可以了。
參考文獻
- Am J Cancer Res. 2015; 5(10): 2929–2943.
- Cancer Res Treat. 2019;51(2):737-747
- A. C. Picornell et al/BMC Genomics
- https://zhuanlan.zhihu.com/p/137070362
- J Clin Oncol. 2009 Mar 10; 27(8): 1160–1167.