長末端重復序列(long terminal repeated,LTR):反轉錄病毒的基因組的兩端各有一個長末端重復序列(5'—LTR和3'—LTR),不編碼蛋白質,但含有啟動子,增強子等調控元件,病毒基因組內的LTR可轉移到細胞原癌基因鄰近處,使這些原癌基因在LTR強啟動子和增強子的作用下被激活,將正常細胞轉化為癌細胞。
結構見下圖
圖中TSD表示target site duplications,紅色三角表示LTR motif。A圖是一個完整的LTR結構,其中a,b,c是LTR_retriever
的分析目標。
第一步,用LTR_FINDER
找到基因組的LTR序列
~/opt/biosoft/LTR_Finder/source/ltr_finder -D 20000 -d 1000 -L 700 -l 100 -p 20 -C -M 0.9 Athaliana.fa >Athaliana.finder.scn
這里的-D表示5'和3'LTR之間的最大距離,-d表示5'和3'LTR之間的最小距離,-L表示5'和3'LTR序列的最大長度,-l表示5'和3'LTR序列的最小長度,-p表示完全匹配配對的最小長度,-C表示檢測中心粒(centriole)刪除高度重復區域,-M表示最小的LTR相似度。如果不知道怎么設置就采用默認值。
第二步運行LTR_retriever
根據LTR_FINDER
的輸出識別LTR-RT,生成非冗余LTR-RT文庫,可用於基因組注釋
~/opt/biosoft/LTR_retriever/LTR_retriever -threads 4 -genome Athaliana.fa -infinder Athaliana.finder.scn
這里的-infinder
表示輸入來自於LTR_FINDER,這一步會調用RepeatMasker,而RepeatMasker要求序列ID長度不大於50個字符
參考來源:
https://xuzhougeng.blog.csdn.net/article/details/102804330