生信學習-二代測序知乎專欄總結[轉]


轉自:https://zhuanlan.zhihu.com/p/20702684

1.基本概念

  • flowcell 是指Illumina測序時,測序反應發生的位置,1個flowcell含有8條lane
  • lane 每一個flowcell上都有8條泳道,用於測序反應,可以添加試劑,洗脫等等
  • tile 每一次測序熒光掃描的最小單位
  • reads 指測序的結果,1條序列一般稱為1條reads
  • bp base pair 鹼基對,用於衡量序列長度
  • 雙端測序 只一條序列可能比較長如500bp,我們可以兩端每端各測150bp
  • junction 上面說的雙端測序,中間會留有200bp測不到的東西,我們叫junction
  • adapter 就是測序中需要的一段特定的序列,有類似於引物的功能
  • primer PCR中的引物

cDNA:complementary DNA互補脫氧核糖核酸。以一種逆轉錄酶,以mRNA為模板做成的復制品,將真核生物的基因(以mRNA的形式)復制到原核生物細胞中。

//哭,昨天寫的沒保存啊,寫了好多呢,哭死。

2.BWT算法

來自視頻:https://www.bilibili.com/video/av15743137

二代序列:較短250bp,相比較精度較高1%=Q30.

對於三代測序來說:數據較長,但是不穩定。

首先講到了雙序列比對——pairwise alignment,有全局比對(Needleman worsh)、局部比對(Smith wosen)

但是對於基因組比較的時候,相當於把seq1換成了ref,先從Seq2里找到一個seed,通過seed找到ref的index,再把這個ref附近的序列做pairwise alignment,

*高通量測序中,index的作用:區分各組樣本數據,每個樣本都有不同的index,在測序時會通過index將不同的樣本分開,形成不同的文件夾。

那么第一步是比較重點的:第一代有華大的SOAP,MAQ等,是將基因組打為一小段一小段的,然后通過哈希存儲,知道這一小短序就能知道它所在的位置,但是占用內存高速度慢找的准。

第二代就是bowtie解決速度的問題。

將測序數據比對到參考基因組

BWT算法:最早用於做數據壓縮。

比如對一個初始序列:ACAACG;

第一部處理+$,進行平移:得到一個矩陣,稱為原始矩陣Raw M:

ACAACG$

$ACAACG

G$ACAAC

CG$ACAA

ACG$ACA

AACG$AC

CAACG$A

將矩陣進行轉換 ,M': ,默認將$開頭作為第一行:

很明顯這個第二個矩陣,就是將第一個矩陣以字母順序排序開頭而已。

需要將第1列作為F列,最后一列作為L(ast)列;

那么轉換矩陣中F和L的關系:

1)同一行內,L是F的前一個字符;(因為它就是那樣平移過去的)

2)單字母的相對位置不變,比如L中的第一個C是對應F中的第一個C

那么:只需存儲L和相對位置,可以根據L推出F,根據LF可以知道整個ref。那么怎么找呢?

倒着查找即可。首先最后一個是$,那么在L的$對應F中的第一個,對應L是G,那么可以得出$前是G;

L中的G對應F中的G,對應L中的C,可以得出G前面是C,以此類推。哇哦果然可以進行數據壓縮。

 那么上面進行的是整個基因組的比對,但是如果想進行一個段序列比如CAA呢?下面進行一下演示:

 

比對時也是倒序比對的,有時會允許出錯,有一個mismatch閾值,那么最終可以比對上。

 所以最終只需要存儲L和每個字母的位置即可,F可以根據L中的字母拍出來序啊,所以不用存儲的。

有個同學提問說,允許mismatch是否允許gap?(好厲害啊,我怎么都沒考慮,只是接受不去思考啊!)

bowtie1不支持Gap open,中間不允許插入缺失。比對過程下:

序列大約長度為36bp,將前28作為高質量區域,並且高質量又平分為兩段,前半段14為HQ,后半段14為LQ,先用HQ作為seed去上述過程,再用LQ作為seed去做上述過程,如果總的mismatch<=2,那么就接着進行后面的比對,如果>2,就認為比對不上,這個2參數是可以調整的。

bowtie2的比對過程:支持了gap open問題;

 第一步選擇seed區域,

有兩種方法:

1.每個fragment長度是20,其中前18是一個seed,再跟兩個gap,這樣用seed片段去比對。

2.10-16,比如第一次選1-16,那么第二次選10-26,有6個的overlap,也就是window=10;

這樣通過將seed與基因組進行比對,就可以知道當前序列在基因組中的大致位置,將在基因組中的序列取出,此時再用NW或者SW算法進行比對,這個時候就可以有gap了,但是seed中間是不能有map的。

unique map包含兩種: 一種是在基因組中只有一個map;另一:有一個map得分很高,另一個得分低很多。

但是up主認為這種沒有太大的意義,因為基因組中duplication非常多。

3.第一代測序技術Sanger

 //看一下那個視頻和博客。

 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM