PAM50怎么计算


看来还得和临床结合才知道为什么提出问题

问题的背景

为什么提出PAM50分型,因为乳腺癌病人的异质性特别大,所以需要将这些病人进行一个分型,以便更好的治疗。

发展的历史

最初是根据免疫组化的三个指标进行分型的

  • HR+ HER2-
  • HR+ HER2+
  • HR- HER2+
  • TNBC

随着RNA-seq的发展,得到的信息更多,于是提出了PAM50分型,也就是根据这50个分子去确定乳腺癌的表型。50个分子怎么确定的呢?又分为哪几类呢?
50个分子的确定 :根据层次聚类的结果将病人分为5类,选择每一类里面top10的基因,一共50个基因。
划分的五类[1]:

这两个分型之间存在什么关系呢?下面是一篇文章计算出来的结果[2]

怎么计算

不讲原理只放代码感觉有点耍流氓,那还是先讲原理把
首先根据找到的病人层次聚类,找到5组病人50个基因的中心(centroids),这个不用咱们去训练,已经有公认的了,接着很简单,来了一个新的病人,直接去看和哪个中心比较近就定为哪一类的病人。
简单粗暴但是好用。至于这个距离怎么计算,欧氏距离,pearson,spearman系数均可以。

现在还有些论文在研究RNA-seq和digital multiplexed gene expression technologies计算出来的结果是否一致,发现大部分差不多[3]。

代码

这里直接放上作者的代码吧,还找了挺久的,里面最关键的是pam50_centroids.txt这个文件,记得把自己的基因表达数据scale一下就可以了。

参考文献

  1. Am J Cancer Res. 2015; 5(10): 2929–2943.
  2. Cancer Res Treat. 2019;51(2):737-747
  3. A. C. Picornell et al/BMC Genomics
  4. https://zhuanlan.zhihu.com/p/137070362
  5. J Clin Oncol. 2009 Mar 10; 27(8): 1160–1167.


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM