TCGA樣本命名詳解


在TCGA中,一個患者可能會對應多個樣本,如TCGA-A6-6650可以得到3個樣本數據:

TCGA-A6-6650-01A-11R-1774-07
TCGA-A6-6650-01A-11R-A278-07
TCGA-A6-6650-01B-02R-A277-07
大家知道一般在做TCGA數據分析的時候樣本名實際上只保留到前四個元素(以”-“分割),例如TCGA-A6-6650-01。所以實際上上示3個樣本一般只保留一個,那該怎么取舍呢?

在取舍之前,當然要先搞清楚樣本命名方式:

我們將此示圖以”-“分割,具體拆開解讀一下:

TCGA:Project, 所有TCGA樣本名均以這個開頭,標志
A6:Tissue source site,組織來源編碼,如A6就表示來源於Christiana Healthcare中心的結腸癌組織。更多編碼所代表的意義詳見:
https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/tissue-source-site-codes
6650:Participant, 參與者編號
01:Sample, 這兩個數字可以說是最關鍵、最被大家注意的,其中編號01~09表示腫瘤,10~19表示正常對照,如下:
https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/sample-type-codes
所以在TCGA樣本名中,這個位置最常見的就是01和11,當然偶爾也會有其他的數字
A:Vial, 在一系列患者組織中的順序,絕大多數樣本該位置編碼都是A; 很少數的是B,表示福爾馬林固定石蠟包埋組織,已被證明用於測序分析的效果不佳,所以不建議使用-01B的樣本數據:
所以命名至此,已經可以開始用於區別不同的樣本了,以下將是更細節的描述:

11:Portion, 同屬於一個患者組織的不同部分的順序編號,同一組織會分割為100-120mg的部分,分別使用
R:Analyte, 分析的分子類型,對應關系如下所示:
https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/portion-analyte-codes
1774:Plate, 在一系列96孔板中的順序,值大表示制板越晚
07:Center, 測序或鑒定中心編碼,更多編碼詳見:
https://tcga-data.nci.nih.gov/datareports/codeTablesReport.htm?codeTable=center
一個借鑒的圖片:

更多內容詳見:
https://wiki.nci.nih.gov/display/TCGA/TCGA+barcode
http://docs.cavatica.org/docs/tcga-grch38-metadata

所以現在看這三個樣本:

TCGA-A6-6650-01A-11R-1774-07
TCGA-A6-6650-01A-11R-A278-07
TCGA-A6-6650-01B-02R-A277-07
其區別就在於,前兩個使用的是患者的冰凍組織做的測序,而第三個用的是福爾馬林固定石蠟包埋組織;而前兩個樣本的區別在於同一組織后續使用了不同的96孔板。

理解了命名規則及三者命名上的主要區別后,現在可以重點解決如何從一個患者的多個樣本中挑選樣本的問題了,首先排除TCGA-A6-6650-01B-02R-A277-07,因為是-01B,福爾馬林固定石蠟包埋組織!剩下的兩個:

TCGA-A6-6650-01A-11R-1774-07
TCGA-A6-6650-01A-11R-A278-07
先看看GDAC firehose遇到這種情況怎么解決,總結起來就是:

1、對RNA數據來說,Analyte為R的優先級最該,其次是R和T,而對於DNA層面的分析來說,D的優先級最高。
2、如果Analyte相同,那就選擇Portion和/或Plate值更大的。
所以按照GDAC firehose的方法,最終保留TCGA-A6-6650-01A-11R-A278-07,因為其相對於TCGA-A6-6650-01A-11R-1774-07的板號(Plate)更晚:
https://github.com/BioinformaticsFMRP/TCGAbiolinks/issues/163
雖然看起來可能這么選比較准確,但是稍微有些麻煩~

然后是cBioPortal中的處理方式:

隨機選擇了一個,理由很簡單啊,來源於同一個患者的癌組織樣本差別不大,小編隨機測試了兩個樣本,表達相關性值是大於0.8的。
---------------------
作者:Mr番茄蛋
來源:CSDN
原文:https://blog.csdn.net/qq_35203425/article/details/80851862
版權聲明:本文為博主原創文章,轉載請附上博文鏈接!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM