PAM50怎么計算


看來還得和臨床結合才知道為什么提出問題

問題的背景

為什么提出PAM50分型,因為乳腺癌病人的異質性特別大,所以需要將這些病人進行一個分型,以便更好的治療。

發展的歷史

最初是根據免疫組化的三個指標進行分型的

  • HR+ HER2-
  • HR+ HER2+
  • HR- HER2+
  • TNBC

隨着RNA-seq的發展,得到的信息更多,於是提出了PAM50分型,也就是根據這50個分子去確定乳腺癌的表型。50個分子怎么確定的呢?又分為哪幾類呢?
50個分子的確定 :根據層次聚類的結果將病人分為5類,選擇每一類里面top10的基因,一共50個基因。
划分的五類[1]:

這兩個分型之間存在什么關系呢?下面是一篇文章計算出來的結果[2]

怎么計算

不講原理只放代碼感覺有點耍流氓,那還是先講原理把
首先根據找到的病人層次聚類,找到5組病人50個基因的中心(centroids),這個不用咱們去訓練,已經有公認的了,接着很簡單,來了一個新的病人,直接去看和哪個中心比較近就定為哪一類的病人。
簡單粗暴但是好用。至於這個距離怎么計算,歐氏距離,pearson,spearman系數均可以。

現在還有些論文在研究RNA-seq和digital multiplexed gene expression technologies計算出來的結果是否一致,發現大部分差不多[3]。

代碼

這里直接放上作者的代碼吧,還找了挺久的,里面最關鍵的是pam50_centroids.txt這個文件,記得把自己的基因表達數據scale一下就可以了。

參考文獻

  1. Am J Cancer Res. 2015; 5(10): 2929–2943.
  2. Cancer Res Treat. 2019;51(2):737-747
  3. A. C. Picornell et al/BMC Genomics
  4. https://zhuanlan.zhihu.com/p/137070362
  5. J Clin Oncol. 2009 Mar 10; 27(8): 1160–1167.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM