lncRNA reannotation
PeRl
2018/9/29
轉換lncRNA文件格式
在后續的數據整理中,我們需要將GTF文件轉化為bed文件,程序如下並命名為 gtf2bed.pl:
use strict;
use warnings;
my $num_args = $#ARGV + 1;
if ($num_args != 2) {
print "\nUsage: gft2bed.pl input_file output_file\n";
exit;
}
my $input_file=$ARGV[0];
my $output_file=$ARGV[1];
open(OUTPUT,">",$output_file);
my @chr;
my @group;
my @class;
my @start;
my @end;
my @score;
my @region;
my @strand;
my @info;
my @array1;
open (my $inFile, '<', $input_file) or die $!;
while (<$inFile>) {
next if /^#/;
push(@array1,split /\n/);
}
close ($inFile);
my @awk;
foreach my $var (@array1)
{
my @awk= (split /\s+/, $var);
$awk[9]=~s/;//;
$awk[9]=~s/"//;
$awk[9]=~s/"//;
if ($awk[2] eq "gene"){
print OUTPUT "$awk[0] $awk[3] $awk[4] $awk[9] $awk[6]\n";
}
}
close OUTPUT;
運行改腳本轉換文件格式:
perl gtf2bed.pl lncRNA.gtf lncRNA.bed
下載芯片探針bed
我們需要利用芯片探針的序列信息與lncRNA的序列進行匹配,因此需要去對應平台下載探針信息。 在這個文檔中我下載的是 affymetrix HG-U133-Plus 2.0 Array.
存儲文件為 `HG-U133_Plus_2.hg19.bed.
利用bedtools進行比對
首先我們需要下載安裝 bedtools:
wget https://github.com/arq5x/bedtools2/releases/download/v2.25.0/bedtools-2.25.0.tar.gz
tar -zxvf bedtools-2.25.0.tar.gz
cd bedtools2
make
只用利用 `intersect 進行兩個bed文件的比對:
bedtools intersect -a HG-U133_Plus_2.hg19.bed -b lncRNA.bed -wa -wb > result.bed
最終我們就得到了比對的結果:
