RNA-seq表達數據之樣本PCA分析


Principal component analysis (PCA) 分析

主成分分析(PCA)幫助我們歸納總結和可視化數據集中的信息,這些數據包含由多個相互關聯的變量描述的個體 / 觀察主成分分析。 可以將每個變量視為不同的維度。 但如果您的數據集中有3個以上的變量,那么很難在多維超空間可視化。 主成分分析是用來從一個多變量數據表中提取重要信息,並將這些信息表示為一組稱為主成分的新變量。 這些新的變量相當於原始數據的線性組合。 主成分的個數小於或等於原始變量的個數。 給定數據集中的信息對應於它所包含的總變差。 主成分分析的目的是確定數據變化最大的方向(或主成分)。換句話說,主成分分析將多變量數據的維數降低為兩個或三個主成分,這些主成分可以以圖形化的方式顯示,信息損失最小。轉錄組中,一般用來檢驗不同處理組樣本間重復性的好壞。更多PCA原理及分析方法請點擊文末的PCA分析資料,下面小編用自己的數據在R中進行PCA分析。

PCA可視化

  • 數據展示
    1d和28d差異表達基因
  • 代碼展示
******************************************************************************************************
#### RNA-seq樣本PCA分析####
#加載的R包
install.packages(c("ggpubr","ggthemes","gmodels"))
library(ggpubr)
#加載差異基因表達矩陣
library(gmodels)
library(ggpubr)
library(ggplot2)
library(ggthemes)
data<-read.csv("C:/Users/Administrator/Desktop/I.csv",header = T,row.names = 1)
head(data)#每一列為一個樣本,每一行為一個基因
#計算PCA
pca.info <- fast.prcomp(data)
??fast.prcomp()
#顯示PCA計算結果
head(pca.info$rotation)
#計算Y1與Y28之間的差異
pca.data <- data.frame(sample = rownames(pca.info$rotation),Type = c(rep("1d",3),rep("28d",3)),pca.info$rotation)
#繪圖
ggscatter(pca.data,x = "PC1",y = "PC2",color = "Type") + theme_base()
###其它圖形修飾參數自己摸索吧,哈哈~
************************************************************************************************************************
  • 結果圖
    PCA結果圖
    從圖片來看,第一天間樣本重復性較好,28d的就不行了,都聚不到一塊。

更多信息可見:PCA分析資料


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM