關於n對鹼基的DNA種類數問題
UPDATE
2020-2-29
經過一些同學的疑問后,我對此條目也發生了一些懷疑。
這種算法是基於,“ 兩條鏈只是互相反向,但是不能區分 ” 這個觀點來算的。
但是實際情況往往有很多可以區分的方法,比如有義鏈,着絲點等等,所以近似 \(4^n\) ,與高中生物無太大差別。但是也不乏各種特殊情況, \(DNA\) 的奧秘還沒有一個定論。
所以此文僅當作理論化的特殊情況看就好了x。
此外,正文中開篇提出的題沒有給出正確答案。
在此給出 “理論” 上的解:
首先考慮一條鏈的所有情況,一共有
明顯這條鏈只有四個。
我們有 \(ATCG\) 每個鹼基 \(2\) 個可以選。
第一個位置有四種性質,但是第二個時,如果選和第一個位置一類的鹼基(比如都選了 \(A\) 或 \(T\) ,之后就只有 2種情況;反之有四種。這就是+號的意義
我們知道除了一種類似 ‘回文’ 一樣的串只計了一次,我們要先找這種鏈的個數,等同於找長度為 \(2\) 個鹼基的鏈的個數,是 \(4\times 4=16\) 。
最后在除二之前將這部分再多加一份就行了:
(最后修正了些筆誤
正文
某天在冊子上做到了這么個問題:
- 如果有 \(2\) 個 \(A-T\) 鹼基對和 \(2\) 個 \(C-G\) 鹼基對,那么可能有多少種可能的 \(DNA\) 片段?
我最初想是 \(C^{2}_{4}\times 2^4\div 2\) ,和選項不符,也沒多想就過了。
上面那個式子的解釋:
- 考慮 \(4\) 個鹼基對的有重復排列,是 \(\frac{4!}{2!\times 2!}\) ,再考慮每個鹼基有正反兩種放法(如 \(A-T\) 和 \(T-A\) ),所以每個乘 \(2\) 。最后注意到 \(DNA\) 的反向對稱使得其翻轉過來是一樣的,會有中心對稱的情況,所以再除以 \(2\) 。
然后之后又做了關於 “ \(n\) 對鹼基的 \(DNA\) 可能有多少種可能 ” 這樣的題,答案竟然給了個 \(4^n\) !
\(DNA\) 的種類其實是和上面的解釋一樣的:
- \(n\) 個鹼基對的排列有 \(2^n\) ,然后每個鹼基對兩種情況再乘 \(2^n\) ,最后(理應)除 \(2\) 。
然而還有另外一種理解,可能對下面的思考更有用:
- 考慮一條鏈,\(4\) 種鹼基的排列有 \(4^n\) 種 ,另一條靠鹼基互補配對確定,最后再除 \(2\) 。
剛好有幾位同學也有此疑問,於是我們開始思考其原因。
首先,有一個理論,由於 \(DNA\) 是有方向的,兩端並不一樣,一端的磷酸連的是脫氧核糖上的 \(5\) 號碳,所以將其命名為 \(5`\) 端,另一端的羥基連的是 \(3\) 號碳,所以稱為 \(3`\) 端。這個理論可能會造成兩種可能間的微小的不同。
之后,我們思考了下其多算的原因:
-
第一種,由於鹼基互補:
\[\begin{vmatrix} A & T\\ C & G \end{vmatrix} \;\equiv\; \begin{vmatrix} G & C\\ T & A \end{vmatrix} \] -
第二種,簡單的對稱:
\[\begin{vmatrix} A & T\\ C & G \end{vmatrix} \;\equiv\; \begin{vmatrix} C & G\\ A & T \end{vmatrix} \]
然后,枚舉了 \(n=2\) 的所有情況
可以發現,除了最后四種,都重復了兩次,這是由於鹼基配對的重復。而最后四種乍一看有重復,但是 \(3`\) 和 \(5`\) 是反的。
那么我們的重點就是如何找到只算一次的項。
可以發現,只要是按鹼基配對變換后再倒過來和原來一樣的鏈,都只會計一次。
例如:
而如何一樣呢,只需要對半分開,然后計算一半長鏈的排列,另一半按配對填上就行了。即為 \(4^{n\over2}\) 。而只有偶數長度會有這種情況,奇數是不行的。
最后我們只要在除之前將這部分再加一份,求可以不多除了!
這就是結論的式子啦!
經過打表檢驗正確。
至於 \(4^n\) 的來源,我們可以這么想,一般 \(DNA\) 分子是憑依在蛋白質載體上,所以按具體情況有辦法區分兩條排列一樣的鏈,所以所謂對稱就不存在了,但是若是單獨討論 \(DNA\) 答案即為而上述結論。
聲明與感謝
感謝兩位朋友 \(yyy\) 和 \(zyl\) 的指點。(@opethrax @BeyondLimits
\(\frak by\; thorn\_\)