ADNI數據


之前整理的數據相關內容

數據的模態有

Clinical Data(臨床數據)
Genetic(基因數據)
MRI
PET
BIOSPECIMEN(生物樣本)

各模態數據的內容、特點

Clinical Data
內容: 招聘、人口統計、體檢和認知評估數據。完整的臨床數據集可以作為逗號分隔值(CSV)文件批量下載

基因數據
內容: 受試者的基因分型和測序數據,數據格式:CSV,VCF,BAM
基因分型數據:

APOE Genotyping -- CSV
TOMM40 PolyT Variant -- CSV

全基因組測序數據:

WGS (GATK Call) – SNV + Indel -- VCF
WGS (CASAVA Call) – SNV -- VCF
Sequenced alignment data -- BAM(不可直接下載)

存在VCF數據,不過數據量都較大,是以G為單位的
VCF數據完整的表現應為:

Record(CHROM, POS, ID, REF, ALT, QUAL, FILTER, INFO, FORMAT, sample_indexes, samples=None)

其中:

  • CHROM:染色體名稱,類型為str
  • POS:位點在染色體上的位置,類型為int
  • ID:一般是突變的rs號,類型為str。如果是‘.’,則為None
  • REF:參考基因組在該位點上的鹼基,類型為str
  • ALT:在該位點的測序結果。是_AltRecord類的子類實例的列表。類型為list。_AltRecord類有4個子類,代表了突變的幾種類型:如snp,indel,structual variants等。所有的實例都可以進行比較(僅限於相等的比較,沒有大於小於之說),部分子類沒有實現str方法,也就是說不能轉成字符串
  • QUAL:該位點的測序質量,類型為int或float
  • FILTER:過濾信息。將FILTER列按分號分隔形成的字符串列表,類型為list。如果未給出參數則為None
  • INFO:該位點的一些測試指標。將‘=’前的參數作為鍵,后面的參數作為值,構建成的字典。類型為dict
  • FORMAT:基因型信息。保存vcf的FORMAT列的原始形式,類型為str

現下載了一個較小的文件,數據量為:39.5 M(不知道當時是怎么找到的了),里面的信息以條為單位,其中前十記錄表現為:

Record(CHROM=gi|251831106|ref|NC_012920.1|, POS=3, REF=T, ALT=[C])
Record(CHROM=gi|251831106|ref|NC_012920.1|, POS=41, REF=C, ALT=[T])
Record(CHROM=gi|251831106|ref|NC_012920.1|, POS=42, REF=T, ALT=[TC])
Record(CHROM=gi|251831106|ref|NC_012920.1|, POS=55, REF=T, ALT=[C])
Record(CHROM=gi|251831106|ref|NC_012920.1|, POS=56, REF=A, ALT=[AC])
Record(CHROM=gi|251831106|ref|NC_012920.1|, POS=57, REF=T, ALT=[C, G])
Record(CHROM=gi|251831106|ref|NC_012920.1|, POS=64, REF=C, ALT=[T])
Record(CHROM=gi|251831106|ref|NC_012920.1|, POS=72, REF=T, ALT=[C, G])
Record(CHROM=gi|251831106|ref|NC_012920.1|, POS=73, REF=A, ALT=[G])
Record(CHROM=gi|251831106|ref|NC_012920.1|, POS=75, REF=G, ALT=[A])
Record(CHROM=gi|251831106|ref|NC_012920.1|, POS=93, REF=A, ALT=[G])

讀取方式

import vcf
import os


vcf_file = "adni_mito_genomes.vcf"
vcf_reader = vcf.Reader(filename=vcf_file)
i = 0
for record in vcf_reader:
    print(record)
    if i == 10:
        break
    i += 1

MRI
內容: 原始、預處理和后處理的圖像文件,FMRI和DTI
數據格式: MRI(structural, diffusion weighted imaging, perfusion, and resting state sequences)
可得到的圖像數據

圖像示例

下載數據(經過處理)示例:
名字: ADNI1_Complete_2Yr_1.5T
格式: NiFTI
大小: 22.5 M
尺寸: 192 * 192 * 160
類型: T1
制造商: SIEMENS
成像信息:

Acquisition Plane=SAGITTAL; Acquisition Type=3D; Coil=HE; Field Strength=1.5 tesla; Flip Angle=8.0 degree; Manufacturer=SIEMENS; Matrix X=192.0 pixels; Matrix Y=192.0 pixels; Matrix Z=160.0 ; Mfg Model=Symphony; Pixel Spacing X=1.25 mm; Pixel Spacing Y=1.25 mm; Pulse Sequence=IR/GR; Slice Thickness=1.2000000476837158 mm; TE=3.609999895095825 ms; TI=1000.0 ms; TR=3000.0 ms; Weighting=T1

使用Mango可直接顯示圖片,效果如下

名字:ADNI1_Baseling_3T
格式:NiFTI
大小:22.5 M
尺寸: 192 * 192 * 160
制造商: GE MEDICAL SYSTEMS
類型: T1
成像信息:

Acquisition Plane=SAGITTAL; Acquisition Type=3D; Coil=8HRBRAIN; Field Strength=3.0 tesla; Flip Angle=8.0 degree; Manufacturer=GE MEDICAL SYSTEMS; Matrix X=256.0 pixels; Matrix Y=256.0 pixels; Matrix Z=166.0 ; Mfg Model=SIGNA EXCITE; Pixel Spacing X=1.0156199932098389 mm; Pixel Spacing Y=1.0156199932098389 mm; Pulse Sequence=RM; Slice Thickness=1.2000000476837158 mm; TE=2.8399999141693115 ms; TI=900.0 ms; TR=6.616000175476074 ms; Weighting=T1

使用Mango可直接顯示圖片,效果如下

ADNI中的掃描是在兩種不同的特斯拉掃描儀上進行的,即飛利浦醫療系統和西門子
飛利浦醫療系統掃描的EPI序列為144個體積,場強=3.0特斯拉,翻轉角=80.0°,TE=30.0ms,TR=3000.0ms,64×65矩陣,6720.0層厚度為3.31mm的靜止狀態fMRI
用飛利浦醫學系統掃描儀進行擴展靜息狀態fMRI的EPI序列為:200體積,場強=3.0tesla,翻轉角=90.0°,TE=30.0ms,TR=3000.0,64×65矩陣,9600.0層厚3.31mm
對於西門子掃描儀,EPI序列是197個體積,場強=3.0特斯拉,翻轉角=80.0度,TE=30.0ms,TR=2999.99,448×448矩陣,以及197個3.4mm厚度的切片
(此處顯示的信息與下載的經過處理的信息TE不一致)

python代碼示例

import skimage.io as io
import nibabel as nib
import numpy as np
import random


nii_file = "1.nii"
img = nib.load(nii_file)
img_arr = img.get_fdata()
img_arr = np.squeeze(img_arr)
#隨機選取一張圖片
img_arr1 = img_arr[:, :, random.randint(0, img_arr.shape[2])]
# 數據歸一化至[0,1]
print(img_arr.shape)
img_arr1 = (img_arr1 - np.min(img_arr)) / (np.max(img_arr) - np.min(img_arr))
io.imshow(img_arr1)
io.show()

注:只能找到T1的圖像,T2的未找到

PET
特點:該數據的目標是跟蹤’老年痴呆症的惡化和潛在的病理變化
可得到的數據

圖像示例

下載的數據:
單個圖片大小:3.44 M
格式: NiFTI
尺寸: 91 * 109 * 91
使用Mango可直接顯示圖片,效果如下

BIOSPECIMEN(生物樣本)
內容:血液、尿液和腦脊液(CSF)等生物標本


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM