常用腫瘤相關數據庫



傳統化療是對抗癌症的常見方法,但它會攻擊全身,造成不必要的副作用,如脫發,惡心和疲勞。
靶向治療選擇性地殺死癌細胞而不影響健康組織。 靶向葯物開發將成為治療癌症的重要手段。
腫瘤的生物信息學數據庫對腫瘤基礎研究的發展、臨床治療水平提供具有重要作用。

1. 綜合性腫瘤數據庫

TCGA

The Cancer Genome Atlas (TCGA)TCGA是由美國國立癌症研究所(NCI)和國家人類基因組研究所資助,關注與癌症的發生和發展相關的分子突變圖譜。該數據庫主要對樣本進行外顯子組和基因組測序分析,所提供的數據包括:基因組拷貝數變化、表觀遺傳、基因表達譜、miRNA等

ICGC

InternationalCancer Genome Consortium (ICGC)ICGC的目標是獲取包括膽道癌、膀胱癌、血癌等多達50種腫瘤及其亞型的基因組、轉錄組和表觀遺傳的全部信息。這些數據可促進癌症的機理和治療研究。

COSMIC

Catalogue of Somatic Mutations inCancer (COSMIC)COSMIC是世界上最大最全面的有關腫瘤的體細胞突變以及其影響的資源庫。它主要提供多種腫瘤細胞基因組中的CNA、甲基化、基因融合、SNP及基因表達等信息,這些突變信息是從科學文獻中手工整理的。主頁面分為項目、數據管理、工具、幫助、搜索框等幾大塊,簡潔清晰。

cBioPortal

cBioPortal for Cancer Genomics(cBioPortal)cBioPortal是一個癌症基因組數據探索、可視化及分析平台,可用於多個癌症基因組學數據集的交互式探索。該數據庫可提供CNA、基因突變信息。針對每個基因,它可給出多個信息,主要包括:基因的CNA信息、基因突變在樣本中的分布、突變位點和頻率、共表達基因以及生存曲線等。對於用戶提供的基因列表,還可生成互作網絡並提供已知的相互作用的葯物。在發現腫瘤相關突變、分析基因的生物學功能以及葯物選擇等方面的研究中具有重要推進作用。

UCSC Cancer Genomics Browser

UCSC Cancer Genomics Browser UCSC Cancer Genomics Browser是一個可以對癌症基因組學和臨床數據進行整合、可視化、分析的網絡分析工具。它保存癌症基因組及臨床數據並收集了樣本的多種信息,包括基因表達水平、CNA、通路信息等。在UCSC的癌症基因組瀏覽器中,可實現不同樣本以及癌症類型之間的比較,分析基因組變異與表型之間的相關性。

用戶可以通過它瀏覽基因組的任何一部分,並且同時可以得到與該部分有關的基因組注釋信息,如已知基因、預測基因、表達序列標簽、mRNA、CpG島,克隆組裝間隙和重疊、染色體帶型、小鼠同源性等。

canEvolve

canEvolve 存儲的信息包括:基因、microRNA (miRNA)和蛋白質表達譜、多種癌症類型的拷貝數變化(CNAs)以及蛋白質-蛋白質相互作用信息。

CGAP

Cancer Genome Anatomy Project(CGAP) CGAP主要提供了cDNA克隆、文庫、基因表達、SNP以及基因組變異等信息。CGAP收集的數據包括正常組織、前癌組織以及癌細胞的基因表達水平。

CGHub

Cancer Genomics Hub (CGHub) CGHub是美國國家癌症研究所(NCI)測序項目的在線存儲庫,其數據來源包括癌症基因組圖譜(TCGA)、癌症細胞系百科全書(CCLE)和產生有效治療(目標)項目的治療應用研究(TARGET)3個國家癌症協會項目,數據來自25種不同類型的癌症。

CGWB

Cancer Genome Work Bench (CGWB) CGWB提供了一系列工具來挖掘、整合以及可視化TCGA等數據庫中的基因組和臨床數據,它是第一個將臨床腫瘤突變譜與參考人類基因組整合在一起的計算平台。用戶可快速地比較患者臨床信息與基因組的變異及甲基化等。

2.腫瘤基因組數據庫

腫瘤細胞的基因組中都存在着大量的變異,主要包括染色體結構的變異、CNA、基因融合以及SNP等。拷貝數改變(CNAs)在很大程度上有助於癌症發病機制和進展。

ArrayMap

ArrayMap ArrayMap提供預處理過的腫瘤基因組芯片數據以及CNA圖譜。在ArrayMap數據庫中,用戶可搜索自己感興趣的樣本,並在此基礎上分析感興趣的基因或基因組片段上的CNA;用戶還可以比較兩個樣本之間的CNA的差異arrayMap數據庫為高分辨率致癌基因組CNA數據的meta分析和系統級數據集成提供了切入點。

BioMuta

BioMuta BioMuta數據庫存儲了癌症細胞中基因的非同義單核苷酸變異,這些突變會影響基因的正常功能。BioMuta中的數據來源於COSMIC、ClinVar、UniProtKB以及一些文獻中。用戶可搜索感興趣的基因,獲得該基因在癌細胞中的突變位點及其分布頻率。

Cancer Hotspots

Cancer Hotspots數據庫由Memorial Sloan Kettering癌症中心的Kravis分子腫瘤學中心維護,提供大規模癌症基因組學數據中發現的在統計學上有顯著復發突變的信息。

目前,Cancer Hotspots里面包含有24592個腫瘤樣品中鑒定的單殘基和框內indel突變熱點。用戶還可按照gene、residue、type、variants等對其內容進行排列查看。

OncoKB

OncoKB是由Memorial Sloan Kettering癌症中心(MSK)維護的全面的精准腫瘤學知識庫,包含來自FDA,NCCN或ASCO,ClinicalTrials.gov和科學文獻的專業指導方針和建議,治療策略,腫瘤專家或腫瘤協會共識,參考文獻等信息。

OncoKB目前包含有關554種癌症基因特定改變的詳細信息,還有1級(FDA批准)、2級(標准護理)的治療信息,3級臨床證據和生物學證據。

CanGEM

Cancer GEnome Mine (CanGEM) CanGEM是一個公共的數據庫,用於存儲定量微陣列數據和臨床腫瘤樣本數據。它主要利用ArrayCGH芯片來發掘基因的拷貝數變異。

CGP

Cancer Genome Project (CGP) CGP提供了腫瘤中的CNA及基因型信息,該數據庫的主要目標是利用人類基因組序列和高通量的突變檢測技術識別體細胞突變,進而發現人類腫瘤發生過程中重要的基因。該數據庫還提供了一些識別突變、CNA的軟件,如BioView、GRAFT等。

3. 腫瘤DNA甲基化數據庫

DNA甲基化修飾是表觀遺傳學的一種重要形式,它調節基因的轉錄水平,對維持細胞的正常功能起着重要作用。DNA甲基化模式的改變可能導致癌症。

DiseaseMeth

DiseaseMeth DiseaseMeth是一個人類疾病甲基化數據庫,其重點是對各種疾病的DNA甲基化數據集進行有效的存儲和統計分析。它涉及的疾病包括癌症、神經發育和退行性疾病、自身免疫疾病等。在DiseaseMeth中可以比較疾病與疾病之間、基因與基因之間以及疾病與基因之間的甲基化關系。

MENT

MENT MENT數據庫收集和整合了來自GeneExpression Omnibus(GEO)和TCGA的DNA甲基化、基因表達水平數據,同時將DNA甲基化和基因表達水平關聯起來。

MethHC

MethHC MethHC是一個集成數據庫,包含大量DNA甲基化數據和mRNA/microRNA在人類癌症中的表達譜。這些數據可以幫助研究人員確定表觀遺傳模式。

MethyCancer

MethyCancer 該數據庫擁有來自公共資源的高度整合的DNA甲基化數據、癌症相關基因、突變和癌症信息,以及我們大規模測序得到的CpGIsland (CGI)克隆。MethyCancer可用於研究DNA甲基化、基因表達與癌症的相互作用。

MethDB

MethDB 是較早的DNA甲基化數據庫,主要集中於環境因子對甲基化的影響;

NGSmethDB

NGSmethDB 基於高通量測序數據,最近更新中還包含了SNP信息,以便后續分析。

4. 腫瘤轉錄組數據庫

腫瘤細胞具有較強的生長和繁殖能力,生命活動旺盛,因此與正常細胞相比,基因的轉錄水平和模式也存在較大的差異。

Oncomine

Oncomine Oncomine是大型的腫瘤基因芯片數據庫,致力於收集、標准化並分析腫瘤樣本的基因表達譜芯片數據。

它可提供基因在腫瘤樣本和正常樣本間、腫瘤樣本和腫瘤樣本間、正常樣本和正常樣本間的差異表達、基因表達譜、預測共表達基因等信息,並可根據腫瘤分期、分級、組織類型等臨床信息進行分類。

GEO

Gene Expression Omnibus (GEO) GEO是由美國國家生物技術信息中心(NCBI)建立的,其最初的目標是作為一個公共存儲庫,存儲主要由微陣列技術生成的高通量基因表達數據。此外,該數據庫還包括比較基因組分析、描述基因組蛋白相互作用的染色質免疫沉淀分析、非編碼RNA分析、SNP基因分型和基因組甲基化狀態分析。

ArrayExpress

ArrayExpress ArrayExpress是歐洲生物信息協會(EMBL-EBI)下屬的功能基因組數據庫,收集整理基於芯片和測序的基因組學實驗的數據,以支持可重復的研究。ArrayExpress是基於微陣列和高通量測序的功能基因組實驗的主要知識庫之一,所有數據都以MAGE-TAB格式提供。
在幫助頁面有詳細的在線教程,供用戶學習如何搜索、提交數據。

ChiTaRS

ChiTaRS ChiTaRS數據庫包含嵌合轉錄本和RNA-Seq數據。ChiTaRS嵌合轉錄本和RNA-Seq數據數據庫是由GenBank、ChimerDB、dbCRID、TICdb和其他用於人類、小鼠和蒼蠅的數據庫的表達序列標記(ESTs)和mRNA識別的嵌合轉錄本集合。

miRCancer

miRCancer miRCancer基於從文獻中提取的結果,提供了較為全面的miRNA集合以及它們在多種腫瘤中的表達情況。所有miRNA的癌變關聯都是在自動提取后手動確認的。

OncomiRDB

OncomiRDB OncomiRDB主要收集和注釋通過實驗驗證的對癌症具有促進或抑制作用的miRNA信息。該數據庫的所有數據是通過人工收集和整理。

SomamiR

SomamiR SomamiR數據庫集成了多種類型的數據,用於研究體細胞和種系突變對癌症中miRNA功能的影響。該數據庫主要收集miRNA及其靶序列上的突變。另外,數據庫還提供了存在miRNA靶序列體細胞突變與腫瘤相關的基因及其參與的通路。

5. 腫瘤蛋白組數據庫

蛋白是生命活動的主要承擔者,蛋白結構變異、蛋白修飾的改變以及蛋白含量的變化等導致細胞的生長和代謝變化是腫瘤發生的重要因素。

CPTAC

ClinicalProteomic Tumor Analysis Consortium (CPTAC) CPTAC整合了基因組和蛋白組的數據,旨在識別和描述腫瘤組織和正常組織中的全部蛋白,發掘可作為腫瘤生物標記的候選蛋白。

Cancer3D

Cancer3D Cancer3D數據庫整合了來自TCGA和CCLE的體細胞錯義突變信息,在蛋白結構水平上分析其對蛋白功能的影響。該數據庫通過e-Driver和e-Drug兩種算法,幫助用戶分析突變的分布模式及其與葯物活性變化的關系。

CancerPPD

CancerPPD CancerPPD是一個抗癌肽(ACPs)和抗癌蛋白的儲存庫,在設計基於肽的抗癌療法中非常有用。在CancerPPD中,針對每個條目,都有其詳細的注釋信息,如肽的來源、肽的性質、抗癌活性、N-和C-末端修飾、構象等。除了天然肽,CancerPPD還含有非天然的、經過化學修飾的殘基肽和D-氨基酸。CancerPPD還整合了一些基於web的工具,包括關鍵字搜索、數據瀏覽、序列和結構相似性搜索。

CanProVar

Cancer Proteome Variation Database(CanProVar) CanProVar數據庫整合了來自各種公共資源的蛋白質序列變異信息,重點是癌症相關的變異,CanProVar中的數據主要來源於TCGA、COSMIC、OMIM、HPI等數據庫以及一些文獻研究。在該數據庫中,用戶可在網站中搜索特定蛋白或者某種腫瘤,獲取蛋白的突變情況,在結果頁面會給出蛋白的基本信息、GO注釋以及相關的研究文獻。

dbDEPC

DbDEPC DbDEPC是一個專門收集腫瘤樣本中出現的差異表達蛋白的數據庫。在該數據庫中,你可以了解你所感興趣的蛋白質是否在某些癌症中發生了變化。

6.腫瘤相關基因數據庫

DriverDB

DriverDB DriverDB收集了來自TCGA、ICGC、TARGET等數據庫的大量exome-seq數據,並根據不同方面提供突變信息的可視化。這些可視化結果將有助於用戶快速了解驅動基因之間的關系。

NCG

Network of Cancer Genes (NCG) 癌症基因網絡(NCG)致力於收集關於人工篩選的已知和候選癌症基因的信息。針對每個基因,用戶可獲得與該基因相關的功能和疾病注釋信息、突變信息、表達譜、miRNA及蛋白互作關系等,還可以可視化miRNA調控關系和蛋白互作網絡。

TP53MUL TLoad

TP53MULTLoad TP53MULTLoad是一個人工收集的有關TP53突變和突變體資源中心,包含了UMDTP53數據庫以及與TP53有關的信息。它既可以作為一個容易操作的平面文件,也可以作為一個新的多平台分析軟件,用於分析TP53突變的各個方面。

7. 腫瘤與葯物數據庫

耐葯性是腫瘤治療的一大障礙,葯物靶點突變是產生獲得性耐葯的主要原因之一。對這些葯物靶點突變的充分了解將有助於設計有效的個性化治療。

CancerDR

CancerDR CancerDR是一種針對癌症治療的個性化葯物的嘗試。CancerDR收集了148種抗癌葯物以及它們在952種細胞系中的葯理狀況。

CancerResource

CancerResource CancerResource通過文獻挖掘以及整合多種數據源的方式收集並發現了大量化合物及其靶點的信息。通過CancerResource數據庫,你可以得到包含化合物與靶標的詳細信息、表達圖譜及相關數據來源鏈接等。

canSAR

canSAR canSAR整合ArrayExpress、UniProt、COSMIC等11種數據源的數據。它是一個支持癌症轉化研究和葯物發現的公共癌症綜合知識庫。該數據庫包含了包括生物學、葯理學、化學、結構生物學和蛋白質相互作用網絡等多種類型的數據。

GDSC

Genomics of Drug Sensitivity inCancer (GDSC) GDSC是關於癌症細胞葯物敏感性和葯物反應分子標記的數據庫,GDSC提供了一個獨特的資源,結合了大的葯物敏感性和基因組數據集,以促進發現新的治療生物標志物的癌症治療。該數據庫中的癌基因組突變信息包括癌基因點突變、基因擴增與丟失、組織類型以及表達譜等

Platinum

Platinum Platinum是一個廣泛收集耐葯性信息的數據庫,是為了研究和理解錯義突變對配體與蛋白質組相互作用的影響而開發的。該數據庫包含超過1000種蛋白配體復合物的三維結構突變,以及這些突變對其親和力的影響。Platinum數據庫將蛋白質結構突變與配體的親和力關聯起來,有助於研究由突變引起的疾病耐葯性。

8. 其他相關數據庫

1000 Genomes

1000 Genomes Project(縮寫為1KGP)在2008年到2015年間進行,1000Genome Project 的目標是在群體中找到頻率至少為1%的遺傳變異,為人類遺傳變異的研究提供了一個綜合的資源。最終數據集包含來自26個群體的2504個個體的數據。所有樣本都有外顯子測序數據。比其他同類數據庫優越的是,1000 Genomes Project里有24個個體進行了全基因組測序。現在1000 Genomes Project的數據可以通過IGSR(The International Genome Sample Resource)的數據門戶網站訪問,現已更新匹配GRCh38參考基因組的數據。在首頁可以進行檢索和分析,進入FTP站點可以進行數據下載。

ESP

ESP全稱是NHLBIExome Sequencing Project(國家心肺血液研究所外顯子組測序項目), 是由多個大學和研究結構合作開展的一個大型的外顯子測序項目,主要目的是通過對不同人群進行SNP分型,來輔助心臟,肺,血液相關疾病的研究。

ExAC

ExAC全名ExomeAggregation Consortium(外顯子組整合數據庫),由哈佛-麻省理工Broad研究所的科學家完成,整合了17個人類基因組項目,60706個個體的外顯子測序數據。整合數據的過程中去除了嚴重兒科疾病的個體和TCGA中的腫瘤樣本,因此適合作為研究嚴重疾病的等位基因頻率的參考組。

ClinVar

ClinVar(Clinical Significance for Variants Relative to Phenotypes, NCBI)是NCBI主辦的與疾病相關的人類基因組變異數據庫。它的強大在於整合了dbSNP、dbVar、Pubmed、OMIM等多個數據庫在遺傳變異和臨床表型方面的數據信息,形成一個標准的、可信的遺傳變異-臨床相關的數據庫

HGMD

HGMD The Human Gene Mutation Database存儲了人類疾病相關的突變信息,由於其全面性,在突變研究領域,有廣泛應用。有免費和收費版本。

OMIM

omim全稱為“Online Mendelian Inheritance in Man”,它通過對新的病症分類並命名、收錄表型和相關病因基因的關系來收錄人類孟德爾疾病信息。
omim主要關注在疾病與基因層面上,而clinvar核心是和臨床相關的基因突變。

CIViC

CIViC即Clinical Interpretations of Variants in Cancer,主要是解讀用,里面有癌症相關的變異位點variant,基因gene還有臨床信息(ClinicalEvidence)、用葯信息等。

9. 總結

下表是一篇綜述統計的腫瘤生物信息數據庫:

以上的分類並不是很嚴謹,不同類型的數據庫會有交叉。此外,還有一些特有癌症的數據庫,如乳腺癌, BCI (Breast Cancer Information Core, NIH); BRCA Share (UMD-BRCA1/2 Mutations Database, BRCA GGC Consortium) 等等。

分類只是為了更清晰,有一個整體印象,不必每一個都熟悉。實際上工作中最常用到的數據庫就以下幾個,有需求再去查:

  • TCGA
  • Oncomine
  • ICGC
  • cBioPortal
  • COSMIC
  • GEO
  • 1KGP

Ref:
腫瘤數據庫,可不只有TCGA、GEO!
資源|腫瘤數據庫匯總
突變相關數據庫教程
1000genomies ESP ExAC比較
楊健, 蔡浩洋. 腫瘤生物信息學數據庫[J]. 生物技術通報, 2015, 31(9): 89-101


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM