轉自:https://zhuanlan.zhihu.com/p/20702684
1.基本概念
- flowcell 是指Illumina測序時,測序反應發生的位置,1個flowcell含有8條lane
- lane 每一個flowcell上都有8條泳道,用於測序反應,可以添加試劑,洗脫等等
- tile 每一次測序熒光掃描的最小單位
- reads 指測序的結果,1條序列一般稱為1條reads
- bp base pair 鹼基對,用於衡量序列長度
- 雙端測序 只一條序列可能比較長如500bp,我們可以兩端每端各測150bp
- junction 上面說的雙端測序,中間會留有200bp測不到的東西,我們叫junction
- adapter 就是測序中需要的一段特定的序列,有類似於引物的功能
- primer PCR中的引物
cDNA:complementary DNA互補脫氧核糖核酸。以一種逆轉錄酶,以mRNA為模板做成的復制品,將真核生物的基因(以mRNA的形式)復制到原核生物細胞中。
//哭,昨天寫的沒保存啊,寫了好多呢,哭死。
2.BWT算法
來自視頻:https://www.bilibili.com/video/av15743137
二代序列:較短250bp,相比較精度較高1%=Q30.
對於三代測序來說:數據較長,但是不穩定。
首先講到了雙序列比對——pairwise alignment,有全局比對(Needleman worsh)、局部比對(Smith wosen)
但是對於基因組比較的時候,相當於把seq1換成了ref,先從Seq2里找到一個seed,通過seed找到ref的index,再把這個ref附近的序列做pairwise alignment,
*高通量測序中,index的作用:區分各組樣本數據,每個樣本都有不同的index,在測序時會通過index將不同的樣本分開,形成不同的文件夾。
那么第一步是比較重點的:第一代有華大的SOAP,MAQ等,是將基因組打為一小段一小段的,然后通過哈希存儲,知道這一小短序就能知道它所在的位置,但是占用內存高速度慢找的准。
第二代就是bowtie解決速度的問題。
將測序數據比對到參考基因組。
BWT算法:最早用於做數據壓縮。
比如對一個初始序列:ACAACG;
第一部處理+$,進行平移:得到一個矩陣,稱為原始矩陣Raw M:
ACAACG$
$ACAACG
G$ACAAC
CG$ACAA
ACG$ACA
AACG$AC
CAACG$A
將矩陣進行轉換 ,M': ,默認將$開頭作為第一行:

很明顯這個第二個矩陣,就是將第一個矩陣以字母順序排序開頭而已。
需要將第1列作為F列,最后一列作為L(ast)列;
那么轉換矩陣中F和L的關系:
1)同一行內,L是F的前一個字符;(因為它就是那樣平移過去的)
2)單字母的相對位置不變,比如L中的第一個C是對應F中的第一個C
那么:只需存儲L和相對位置,可以根據L推出F,根據LF可以知道整個ref。那么怎么找呢?

倒着查找即可。首先最后一個是$,那么在L的$對應F中的第一個,對應L是G,那么可以得出$前是G;
L中的G對應F中的G,對應L中的C,可以得出G前面是C,以此類推。哇哦果然可以進行數據壓縮。
那么上面進行的是整個基因組的比對,但是如果想進行一個段序列比如CAA呢?下面進行一下演示:

比對時也是倒序比對的,有時會允許出錯,有一個mismatch閾值,那么最終可以比對上。
所以最終只需要存儲L和每個字母的位置即可,F可以根據L中的字母拍出來序啊,所以不用存儲的。
有個同學提問說,允許mismatch是否允許gap?(好厲害啊,我怎么都沒考慮,只是接受不去思考啊!)
bowtie1不支持Gap open,中間不允許插入缺失。比對過程下:
序列大約長度為36bp,將前28作為高質量區域,並且高質量又平分為兩段,前半段14為HQ,后半段14為LQ,先用HQ作為seed去上述過程,再用LQ作為seed去做上述過程,如果總的mismatch<=2,那么就接着進行后面的比對,如果>2,就認為比對不上,這個2參數是可以調整的。
bowtie2的比對過程:支持了gap open問題;
第一步選擇seed區域,

有兩種方法:
1.每個fragment長度是20,其中前18是一個seed,再跟兩個gap,這樣用seed片段去比對。
2.10-16,比如第一次選1-16,那么第二次選10-26,有6個的overlap,也就是window=10;
這樣通過將seed與基因組進行比對,就可以知道當前序列在基因組中的大致位置,將在基因組中的序列取出,此時再用NW或者SW算法進行比對,這個時候就可以有gap了,但是seed中間是不能有map的。
unique map包含兩種: 一種是在基因組中只有一個map;另一:有一個map得分很高,另一個得分低很多。
但是up主認為這種沒有太大的意義,因為基因組中duplication非常多。
3.第一代測序技術Sanger
//看一下那個視頻和博客。
