RNAhybrid的介紹
RNAhybrid是Behmsmeier M等基於miRNA和靶基因二聚體二級結構開發的miRNA靶基因預測軟件。RNAhybrid預測算法禁止分子內、miRNA分子間及靶基因間形成二聚體,根據miRNA和靶基因間結合能探測最佳的靶位點。盡管隨着靶基因序列長度增加,運算復雜度也相應增加,但RNAhybrid和其它RNA二級結構預測軟件諸如mfold, RNAfold, RNAcofold和pairfold相比,仍具有明顯的速度優勢。此外,RNAhybrid允許用戶自定義自由能閾值及p值,也允許用戶設置雜交位點的偏向,如雜交位點必須包含miRNA 5’端2-7nt等。
1.RNAhybrid的下載與安裝
1 wget https://bibiserv.cebitec.uni-bielefeld.de/applications/rnahybrid/resources/downloads/RNAhybrid-2.1.2.tar.gz 2 tar -xzvf RNAhybrid-2.1.2.tar.gz 3 cd /path/to/ RNAhybrid-2.1.2 4 ./configure 5 sudo make #這里盡量使用管理員模式,不然容易出錯 6 sudo make install
驗證是否安裝成功,可以輸入which RNAhybrid,如顯示地址,則安裝成功,以下是用win10下的WSL下的ubuntu做的示范:

2.輸入文件的准備
1.target sequence(s)
This contains one or more sequences that are used by RNAhybrid to hybridize the miRNA(s) on. RNAhybrid uses all this sequences to find minimal free energy hybridisations between miRNA(s) and target sequence(s). Sequences should be in RNA.fasta format but RNAhybrid can also use DNA.fasta files. A single Sequences one can use can contain up to 50000 basepairs.
這里的target sequence用的是從circbase下載的人的circRNA的fasta文件,具體下載方法參考我這篇博客https://www.cnblogs.com/yanjiamin/p/12057362.html
2.miRNA sequence(s)
contains one or more micro RNA(s) that RNAhybrid uses to hybridize with the RNA sequences and to find the minimal free energy hybridization. A single micro RNA sequence can contain up to 2000 basepairs.
這里的miRNA sequence用的是從miRbase下載的成熟的人的miRNA的fasta文件,具體下載方法參考我這篇博客https://www.cnblogs.com/yanjiamin/p/12057362.html
3.RNAhybrid的使用
Usage: RNAhybrid [options] [target sequence] [query sequence].
options:
-b <number of hits per target> #意思是一個miRNA和一個target sequence的某一段序列匹配情況最多列出幾次,比如一個miRNA和一個target sequence的某一段序列匹配存在多種情況,則-b 1就是列出最優的匹配情況,一般選1就比較好。這個最終得到的數目也與<energy cut-off>的設定值有關。
-c compact output #使用這個參數,每一個匹配只會顯示一行輸出。如果只想知道結果是否與RNAhybrid校准的結果相同,建議使用這個參數。
-d <xi>,<theta> #位置和形狀參數
-f helix constraint #
-h help
-m <max targetlength>
-n <max query length>
-u <max internal loop size (per side)> #內部成環的錯配鹼基的個數,使用-u 0,將得到完全沒有錯配鹼基內部成環的結構。
-v <max bulge loop size> #internal loop是兩條鏈都沒有結合位點的內部環,而bulge loop是某一條上多出的鹼基的突出
-e <energy cut-off> #兩條序列匹配的最低自由能,先設置 -e -30看看效果。
-p <p-value cut-off>
-s (3utr_fly|3utr_worm|3utr_human) #用於極值分布參數的快速估計,你可以選擇nothing,3utr_fly, 3utr_worm和3utr_human來更好的匹配這些物種。你不能同時使用helix constrain和approximate p-value這兩個參數。
-g (ps|png|jpg|all) #圖片輸出的格式,有ps,png,jpg或者all四個選項
-t <target file> #fasta格式的target gene文件
-q <query file> #fasta格式的miRNA文件
Either a target file has to be given (FASTA format)
or one target sequence directly.
Either a query file has to be given (FASTA format)
or one query sequence directly.
The helix constraint format is "from,to", eg. -f 2,7 forces
structures to have a helix from position 2 to 7 with respect to the query.
<xi> and <theta> are the position and shape parameters, respectively,
of the extreme value distribution assumed for p-value calculation.
If omitted, they are estimated from the maximal duplex energy of the query.
In that case, a data set name has to be given with the -s flag.
PS graphical output not supported.
PNG and JPG graphical output not supported.
4.RNAhybrid進行人miRNA的靶位點預測的條件
1.miRNA的第8到12個鹼基和circRNA的必須是完全配對的,這里需要設置的參數是-f helix constraint,也就是設置-f 8,12
2.是指上下兩條鏈都錯配形成的錯配環,這種錯配環中任何一條鏈的錯配鹼基不能超過1個,這里需要設置的參數是-u <max internal loop size (per side)> ,也就是設置-u 1
3.突出環即一條鏈多出了一個鹼基的突出,這種突出環最多突出一個鹼基,這里需要設置的參數是-v <max bulge loop size> ,也就是設置-v 1
4.允許G:U配對,默認的參數是允許G:U配對,你也可以設置no G:U in seeds來設置不允許G:U配對
5.末端未配對的突出不能超過兩個鹼基
6.不允許存在連續3個鹼基的錯配
7.總數不超過4個鹼基的錯配
1 RNAhybrid -g jpg -b 1 -e -20 -f 8,12 -u 1 -v 1 -s 3utr_human -t SFTSV_24vscontrol_DEcircBase.fa -q hsa_miRNA.fa>SFTSV_24bscontrol_circRNA_miRNA_RNAhybrid #輸出會直接打印在終端里,所以建議你在終端以 “>" 輸出保存為一個文件
RNAhybrid產生的結果中,設置了-g jpg但是沒有產出jpg文件,不知道為什么
這里產生的結果需整理成circRNA miRNA格式的包含行名為circRNA和miRNA的數據框,然后用cytoscape做ceRNA網絡圖。