甲基化數據QC：使用甲基化數據計算樣本間的相關性 - 碼上歡樂

相關內容簡體繁體

甲基化數據QC：使用甲基化數據計算樣本間的相關性

本文轉載自查看原文 2020-05-26 19:27 572 甲基化

樣本間的相關性，可以反映公司加樣時是否存在重復加樣的錯誤。

下面簡要介紹一下如果利用甲基化數據計算樣本間的相關性

1、提取甲基化探針的snp位點、CpG的beta值

下面用的示例文件是minfi包自帶的。

如果是自己的數據，那么提取甲基化snp位點用的是沒有經過過濾的原始數據。

首先，安裝：

BiocManager::install(c("minfi","minfiData","sva"))
library(minfi)
library(minfiData)
library(sva)
baseDir <- system.file("extdata", package="minfiData")
targets <- read.metharray.sheet(baseDir)
RGSet <- read.metharray.exp(targets = targets)
manifest <- getManifest(RGSet)

這里可以看到不同探針的情況：

一條龍服務，提取甲基化探針的snp位點、CpG的beta值：

MSet <- preprocessRaw(RGSet) 
RSet <- ratioConvert(MSet, what = "both", keepCN = TRUE)
GRset <- mapToGenome(RSet)
beta <- getBeta(GRset) #提取CpG的beta值
snps <- getSnpBeta(RGSet) #提取SNP位點

2、CpG和SNP的beta值位點示例結果

提取完CpG和SNP后，看一下各自的示例結果：

CpG的beta值示例結果：

甲基化SNP位點的示例結果：

3、計算相關性

計算樣本間的相關性，我們用R自帶的cor函數即可。選用的數值為SNP的甲基化數值

計算相關性代碼：cor(snps)

結果如下：

這里解釋一下，為什么不選用CpG的beta值計算相關性。

如下圖所示，我分別用了前100、1000、10000個CpG的beta值計算樣本1（5723646052_R02C02）和樣本2（5723646052_R04C01）的相關性，相關性均在0.97以上（藍色框框），用snps位點計算相關性時，樣本1和樣本2的相關性則為0.1426071（紅色框框）。

可見，CpG的beta值計算出來的相關性都特別高，根本不能區別樣本間真實的相關性。

因此，計算樣本間相關性，推薦甲基化探針的SNP位點。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 甲基化樣本和CpG位點QC的總流程（450k和850k） DNA甲基化 TCGA系列--甲基化神器mexpress pandas 計算相關性系數 python數據相關性分析（計算相關系數）數據相關性分析方法 m6A甲基化及預測方法工具總結相關性分析 pandas通過皮爾遜積矩線性相關系數（Pearson's r）計算數據相關性數據特征分析：5.相關性分析

粵ICP備18138465號 © 2018-2025 CODEPRJ.COM