生信學習-二代測序知乎專欄總結[轉]

本文轉載自查看原文 2018-10-11 22:56 1753 測序/ 生信

轉自：https://zhuanlan.zhihu.com/p/20702684

1.基本概念

flowcell 是指Illumina測序時，測序反應發生的位置，1個flowcell含有8條lane
lane 每一個flowcell上都有8條泳道，用於測序反應，可以添加試劑，洗脫等等
tile 每一次測序熒光掃描的最小單位
reads 指測序的結果，1條序列一般稱為1條reads
bp base pair 鹼基對，用於衡量序列長度
雙端測序 只一條序列可能比較長如500bp，我們可以兩端每端各測150bp
junction 上面說的雙端測序，中間會留有200bp測不到的東西，我們叫junction
adapter 就是測序中需要的一段特定的序列，有類似於引物的功能
primer PCR中的引物

cDNA：complementary DNA互補脫氧核糖核酸。以一種逆轉錄酶，以mRNA為模板做成的復制品，將真核生物的基因(以mRNA的形式)復制到原核生物細胞中。

//哭，昨天寫的沒保存啊，寫了好多呢，哭死。

2.BWT算法

來自視頻：https://www.bilibili.com/video/av15743137

二代序列：較短250bp，相比較精度較高1%=Q30.

對於三代測序來說：數據較長，但是不穩定。

首先講到了雙序列比對——pairwise alignment，有全局比對（Needleman worsh）、局部比對（Smith wosen）

但是對於基因組比較的時候，相當於把seq1換成了ref,先從Seq2里找到一個seed，通過seed找到ref的index，再把這個ref附近的序列做pairwise alignment，

*高通量測序中，index的作用：區分各組樣本數據，每個樣本都有不同的index，在測序時會通過index將不同的樣本分開，形成不同的文件夾。

那么第一步是比較重點的：第一代有華大的SOAP,MAQ等，是將基因組打為一小段一小段的，然后通過哈希存儲，知道這一小短序就能知道它所在的位置，但是占用內存高速度慢找的准。

第二代就是bowtie解決速度的問題。

將測序數據比對到參考基因組。

BWT算法：最早用於做數據壓縮。

比如對一個初始序列：ACAACG；

第一部處理+$，進行平移：得到一個矩陣，稱為原始矩陣Raw M：

ACAACG$

$ACAACG

G$ACAAC

CG$ACAA

ACG$ACA

AACG$AC

CAACG$A

將矩陣進行轉換 ,M': ，默認將$開頭作為第一行：

很明顯這個第二個矩陣，就是將第一個矩陣以字母順序排序開頭而已。

需要將第1列作為F列，最后一列作為L(ast)列；

那么轉換矩陣中F和L的關系：

1）同一行內，L是F的前一個字符；（因為它就是那樣平移過去的）

2）單字母的相對位置不變，比如L中的第一個C是對應F中的第一個C

那么：只需存儲L和相對位置，可以根據L推出F，根據LF可以知道整個ref。那么怎么找呢？

倒着查找即可。首先最后一個是$，那么在L的$對應F中的第一個，對應L是G，那么可以得出$前是G；

L中的G對應F中的G，對應L中的C，可以得出G前面是C，以此類推。哇哦果然可以進行數據壓縮。

那么上面進行的是整個基因組的比對，但是如果想進行一個段序列比如CAA呢？下面進行一下演示：

比對時也是倒序比對的，有時會允許出錯，有一個mismatch閾值，那么最終可以比對上。

所以最終只需要存儲L和每個字母的位置即可，F可以根據L中的字母拍出來序啊，所以不用存儲的。

有個同學提問說，允許mismatch是否允許gap?（好厲害啊，我怎么都沒考慮，只是接受不去思考啊！）

bowtie1不支持Gap open,中間不允許插入缺失。比對過程下：

序列大約長度為36bp，將前28作為高質量區域，並且高質量又平分為兩段，前半段14為HQ，后半段14為LQ，先用HQ作為seed去上述過程，再用LQ作為seed去做上述過程，如果總的mismatch<=2，那么就接着進行后面的比對，如果>2,就認為比對不上，這個2參數是可以調整的。

bowtie2的比對過程：支持了gap open問題；

第一步選擇seed區域，

有兩種方法：

1.每個fragment長度是20，其中前18是一個seed,再跟兩個gap，這樣用seed片段去比對。

2.10-16，比如第一次選1-16，那么第二次選10-26，有6個的overlap，也就是window=10；

這樣通過將seed與基因組進行比對，就可以知道當前序列在基因組中的大致位置，將在基因組中的序列取出，此時再用NW或者SW算法進行比對，這個時候就可以有gap了，但是seed中間是不能有map的。

unique map包含兩種：一種是在基因組中只有一個map；另一：有一個map得分很高，另一個得分低很多。

但是up主認為這種沒有太大的意義，因為基因組中duplication非常多。

3.第一代測序技術Sanger

//看一下那個視頻和博客。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 二代測序技術總結二代測序的fastq文件格式介紹二代測序---質量控制篇 [知乎]出國的二代才是好二代為什么二代測序的原始數據中會出現Read重復現象？樣本、文庫、重復、lane、run - 二代測序原理及名詞解釋 Next generation sequencing (NGS)二代測序數據預處理與分析項目一：使用二代測序數據進行基因組組裝（局部組裝）生物信息學基礎知識【03】二代測序原理（轉）第一代、第二代、第三代半導體材料