[R] 如何繪制各樣本的pathway豐度熱圖？

本文轉載自查看原文 2019-10-14 16:32 706 R

前言

一般而言，我們做完pathway富集分析，就做下氣泡圖或bar圖來進行展示，但它們實際上只考慮了富集因子和Pvalue。如果我們不關注這兩個因素，而是在乎樣本本身的pathway豐度呢？

對於KEGG熱圖繪制，大部分是做到KO層級，因為基因/蛋白和KO的絕大部分都是一對一的對應關系。如果一定要做Pathway的豐度熱圖呢？一般的方法是將該通路中的基因/蛋白的豐度進行累加來表示該pathway的豐度。

好了，現在我們來計算並繪制熱圖吧。

數據處理

得到pathway富集分析結果文件一般是這樣的：

Proteins字段中的基因/蛋白是用分號隔開的。

> colnames(path)
[1] "X.Pathway"       "Sample1..1113."  "Sample2..15327." "Pvalue"          "Pathway.ID"      "Level1"         
[7] "Level2"          "Proteins"        "KOs"

除此之外，我們還需要一個基因表達矩陣：

四組樣本，每組3個重復，共12個。

我們的目標就是整理成這樣的table，用來繪制熱圖：

從兩個表可知，數據處理關鍵就是pathway中的蛋白豐度求和。把pathway中對應的各蛋白展開，再匹配到表達矩陣上，最后歸並求和就好了，思路清晰了就動手吧。

library(tidyverse)
path2 <- path %>% dplyr::select(X.Pathway,Level1,Level2,Proteins)

#下面這一步最關鍵，dplyr中為我們提供了一個有用的函數unnest
path3 <- path2 %>% mutate(ProteinID = strsplit(Proteins, ";")) %>% unnest()
colnames(path3)[1] <- "Pathway"

#如果不熟悉，這一步也可用Map函數配合do.call來完成：
out <- do.call(rbind, Map(cbind, path2$X.Pathway,path2$Level1,path2$Level2,strsplit(path2$Proteins, ";")))
out <- as.data.frame(out)
colnames(out) <- colnames(path2)

得到的結果是這樣的：

Proteins列中的蛋白都一一和Pathway對應起來了。后面就好辦了，直接貼代碼：

#sum scale
ibaq2 <- sweep(ibaq,2,apply(ibaq, 2, sum),FUN = "/")

#caculate each group mean value
group <- factor(rep(c("S01CC","S11SC","S12CC","S12SC"),each=3),levels = c("S11SC","S12SC","S12CC","S01CC"))
out <- apply(ibaq2,1,function(x){
  dat <- data.frame(group=group,value=x)
  dat_mean <- dat %>% group_by(group) %>% summarise(mean=mean(value)) %>% select(mean)
})  #注意此處計算均值未用na.rm參數
out[[1]]
out2 <- as.data.frame(t(do.call(cbind,out)))
colnames(out2) <- levels(group)
rownames(out2) <- rownames(ibaq2)

exp <- data.frame(ProteinID=rownames(out2),out2)
data1 <- left_join(path3,exp,by="ProteinID") %>% dplyr::select(1:3,6:9) %>% 
  gather(Sample,Abundance,-c(Pathway,Level1,Level2)) %>% 
  group_by(Pathway,Sample) %>% summarise(Sum=sum(Abundance)) %>% 
  spread(Sample,Sum)

tmp <- path3[1:3]
annotation <- tmp[!duplicated(tmp),]
length(intersect(data1$Pathway,annotation$Pathway))
#先按pathway排序，再按level2,level1排序
plotdat <- left_join(annotation,data1,by="Pathway") %>% 
  arrange(Pathway) %>% 
  arrange(Level2) %>% arrange(Level1)

現在已經得到想要的數據了。

繪圖

這個就不用多解釋了。

library(pheatmap)
Exp_log2=plotdat  #實際上我中間處理了別的，這里便於繪圖直接賦值
colnames(Exp_log2)
exp_plot <- select(Exp_log2,S11SC,S12SC,S12CC,S01CC)
rownames(exp_plot) <- Exp_log2$Pathway

annotation_row <- select(Exp_log2,Level2,Level1)
rownames(annotation_row) <- Exp_log2$Pathway

pheatmap(exp_plot,cluster_rows = F,cluster_cols = F,scale = "row",
         annotation_row = annotation_row,
          border_color = NA,
          #angle_col=45,
          color = colorRampPalette(c("blue","white","red"))(50))

圖片大概成這樣：

根據需要挑選一些pathway展示吧，太多不好看。

Ref: https://stackoverflow.com/questions/28719088/r-semicolon-delimited-a-column-into-rows

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 R語言學習 - 熱圖繪制heatmap 繪制森林圖（R）各種各樣的輪播圖 R語言繪制QQ圖 RNA_seq 熱圖繪制 R繪制韋恩圖 | Venn圖 Pathway富集分析氣泡圖用R包中heatmap畫熱圖 R語言繪制莖葉圖 R中繪制聚類的離散圖