lncRNA芯片重注釋


 

下載lncRNA注釋文件GTF

為了在基因芯片中重注釋lncRNA對應的探針,我們需要下載合適的lncRNA基因組序列信息,數據來源於 GENECODE數據庫.

轉換lncRNA文件格式

在后續的數據整理中,我們需要將GTF文件轉化為bed文件,程序如下並命名為 gtf2bed.pl:

use strict;
use warnings;

my $num_args = $#ARGV + 1;
if ($num_args != 2) {
    print "\nUsage: gft2bed.pl input_file output_file\n";
    exit;
}

my $input_file=$ARGV[0];
my $output_file=$ARGV[1];

open(OUTPUT,">",$output_file);

my @chr;
my @group;
my @class;
my @start;
my @end;
my @score;
my @region;
my @strand;
my @info;

my @array1;
open (my $inFile, '<', $input_file) or die $!;
while (<$inFile>) {
  next if /^#/;
  push(@array1,split /\n/);
}

close ($inFile);

my @awk;

foreach my $var (@array1)
    {
        my @awk= (split /\s+/, $var);
        $awk[9]=~s/;//;
        $awk[9]=~s/"//;
        $awk[9]=~s/"//;
        if ($awk[2] eq "gene"){
            print OUTPUT  "$awk[0]  $awk[3] $awk[4] $awk[9] $awk[6]\n";
        }
}
close OUTPUT;

運行改腳本轉換文件格式:

perl gtf2bed.pl lncRNA.gtf lncRNA.bed

下載芯片探針bed

我們需要利用芯片探針的序列信息與lncRNA的序列進行匹配,因此需要去對應平台下載探針信息。 在這個文檔中我下載的是 affymetrix HG-U133-Plus 2.0 Array.

存儲文件為 `HG-U133_Plus_2.hg19.bed.

利用bedtools進行比對

首先我們需要下載安裝 bedtools:

wget https://github.com/arq5x/bedtools2/releases/download/v2.25.0/bedtools-2.25.0.tar.gz
tar -zxvf bedtools-2.25.0.tar.gz
cd bedtools2
make

只用利用 `intersect 進行兩個bed文件的比對:

bedtools intersect -a HG-U133_Plus_2.hg19.bed -b lncRNA.bed -wa -wb > result.bed

最終我們就得到了比對的結果:


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM