| 分類: 科技前沿 |
Hiseq X ten與HiSeq2000對比
1. HiSeq2000測序的數據集,正常情況下會有一些開頭和末尾第一個鹼基為N的序列,每條lane會有數千至數萬條這種序列,除第一個鹼基外,后面鹼基的Phred score都還比較高,而在我們的數據中,沒有這一特征。
“第一個鹼基為N”並非正常情況。只有特定版本的HCS軟件,比如說v2.0.5,由於軟件存在bug,才可能會出現第一或者倒數第一個鹼基為N的序列。也就是說,這是軟件運算的問題,測序沒有問題,而且還不一定每次都出現。
進行2X100個循環的Paired-End測序,就測序2X101個循環。多出來一個循環是行業標准做法,也是Illumina官方建議的;
另外,“
每條序列的前面幾個鹼基的質量評分很低”也不是一定的。如果文庫的鹼基復雜度高,簇密度又控制得好,則前面幾個鹼基的質量評分也可以達到比較高的數值。鹼基質量,包括前幾個鹼基的質量評分高低,與文庫構建的好壞有關,比如試劑的質量和操作水准;也與軟件進行數據分析的參數估算有關,比如簇密度和鹼基復雜度。
2. 用HiSeq2000測定模式生物基因組,然后將測序數據mapping回其本身的基因組,mapping率通常在75%~80%左右,有20~25%的序列是不能mapping回去的,而我們數據的mapping率達到了95%以上。
Illumina專家所指出的,mapping率高低與數據質量有關,也受比對方法、比對參數前后是否有差異、或者是否使用了不同版本的參考序列等因素影響。
