關於n對鹼基的DNA種類數問題


關於n對鹼基的DNA種類數問題

UPDATE

2020-2-29

經過一些同學的疑問后,我對此條目也發生了一些懷疑。

這種算法是基於,“ 兩條鏈只是互相反向,但是不能區分 ” 這個觀點來算的。

但是實際情況往往有很多可以區分的方法,比如有義鏈,着絲點等等,所以近似 \(4^n\) ,與高中生物無太大差別。但是也不乏各種特殊情況, \(DNA\) 的奧秘還沒有一個定論。

所以此文僅當作理論化的特殊情況看就好了x。

此外,正文中開篇提出的題沒有給出正確答案。

在此給出 “理論” 上的解:

首先考慮一條鏈的所有情況,一共有

\[4\times 2\times 4\times 2+4\times 2\times 2\times 2=96 \]

明顯這條鏈只有四個。

我們有 \(ATCG\) 每個鹼基 \(2\) 個可以選。

第一個位置有四種性質,但是第二個時,如果選和第一個位置一類的鹼基(比如都選了 \(A\)\(T\) ,之后就只有 2種情況;反之有四種。這就是+號的意義

我們知道除了一種類似 ‘回文’ 一樣的串只計了一次,我們要先找這種鏈的個數,等同於找長度為 \(2\) 個鹼基的鏈的個數,是 \(4\times 4=16\)

最后在除二之前將這部分再多加一份就行了:

\[ans=\frac{96+16}{2}=56 \]

(最后修正了些筆誤

正文

某天在冊子上做到了這么個問題:

  • 如果有 \(2\)\(A-T\) 鹼基對和 \(2\)\(C-G\) 鹼基對,那么可能有多少種可能的 \(DNA\) 片段?

我最初想是 \(C^{2}_{4}\times 2^4\div 2\) ,和選項不符,也沒多想就過了。


上面那個式子的解釋:

  • 考慮 \(4\) 個鹼基對的有重復排列,是 \(\frac{4!}{2!\times 2!}\) ,再考慮每個鹼基有正反兩種放法(如 \(A-T\)\(T-A\) ),所以每個乘 \(2\) 。最后注意到 \(DNA\) 的反向對稱使得其翻轉過來是一樣的,會有中心對稱的情況,所以再除以 \(2\)

然后之后又做了關於 “ \(n\) 對鹼基的 \(DNA\) 可能有多少種可能 ” 這樣的題,答案竟然給了個 \(4^n\) !


\(DNA\) 的種類其實是和上面的解釋一樣的:

  • \(n\) 個鹼基對的排列有 \(2^n\) ,然后每個鹼基對兩種情況再乘 \(2^n\) ,最后(理應)除 \(2\)

然而還有另外一種理解,可能對下面的思考更有用:

  • 考慮一條鏈,\(4\) 種鹼基的排列有 \(4^n\)​ 種 ,另一條靠鹼基互補配對確定,最后再除 \(2\)

剛好有幾位同學也有此疑問,於是我們開始思考其原因。

首先,有一個理論,由於 \(DNA\) 是有方向的,兩端並不一樣,一端的磷酸連的是脫氧核糖上的 \(5\) 號碳,所以將其命名為 \(5`\) 端,另一端的羥基連的是 \(3\) 號碳,所以稱為 \(3`\) 端。這個理論可能會造成兩種可能間的微小的不同。

之后,我們思考了下其多算的原因:

  • 第一種,由於鹼基互補:

    \[\begin{vmatrix} A & T\\ C & G \end{vmatrix} \;\equiv\; \begin{vmatrix} G & C\\ T & A \end{vmatrix} \]

  • 第二種,簡單的對稱:

    \[\begin{vmatrix} A & T\\ C & G \end{vmatrix} \;\equiv\; \begin{vmatrix} C & G\\ A & T \end{vmatrix} \]

然后,枚舉了 \(n=2\) 的所有情況

\[\begin{vmatrix} 3 & 5\\ A & T\\ A & T\\ 5 & 3 \end{vmatrix} \equiv \begin{vmatrix} 3 & 5\\ T & A\\ T & A\\ 5 & 3 \end{vmatrix}\\ (1) \\ \begin{vmatrix} 3 & 5\\ G & C\\ G & C\\ 5 & 3 \end{vmatrix} \equiv \begin{vmatrix} 3 & 5\\ C & G\\ C & G\\ 5 & 3 \end{vmatrix}\\ (2) \\ \begin{vmatrix} 3 & 5\\ A & G\\ C & T\\ 5 & 3 \end{vmatrix} \equiv \begin{vmatrix} 3 & 5\\ G & C\\ T & A\\ 5 & 3 \end{vmatrix}\\ (3) \\ \begin{vmatrix} 3 & 5\\ C & G\\ A & T\\ 5 & 3 \end{vmatrix} \equiv \begin{vmatrix} 3 & 5\\ T & A\\ G & C\\ 5 & 3 \end{vmatrix}\\ (4) \\ \begin{vmatrix} 3 & 5\\ G & C\\ A & T\\ 5 & 3 \end{vmatrix} \equiv \begin{vmatrix} 3 & 5\\ T & A\\ C & G\\ 5 & 3 \end{vmatrix}\\ (5) \\ \begin{vmatrix} 3 & 5\\ A & T\\ G & C\\ 5 & 3 \end{vmatrix} \equiv \begin{vmatrix} 3 & 5\\ C & G\\ T & A\\ 5 & 3 \end{vmatrix}\\ (6) \\ \begin{vmatrix} 3 & 5\\ G & C\\ C & G\\ 5 & 3 \end{vmatrix}\\ (7) \\ \begin{vmatrix} 3 & 5\\ C & G\\ G & C\\ 5 & 3 \end{vmatrix}\\ (8) \\ \begin{vmatrix} 3 & 5\\ T & A\\ A & T\\ 5 & 3 \end{vmatrix}\\ (9) \\ \begin{vmatrix} 3 & 5\\ A & T\\ T & A\\ 5 & 3 \end{vmatrix}\\ (10) \]

可以發現,除了最后四種,都重復了兩次,這是由於鹼基配對的重復。而最后四種乍一看有重復,但是 \(3`\)\(5`\) 是反的。

那么我們的重點就是如何找到只算一次的項。

可以發現,只要是按鹼基配對變換后再倒過來和原來一樣的鏈,都只會計一次。

例如:

\[\begin{vmatrix} 3 & 5\\ \color{red}{A} & \color{teal}{T}\\ \color{red}{T} & \color{teal}{A}\\ \color{red}{G} & \color{teal}{C}\\ \color{teal}{C} & \color{red}{G}\\ \color{teal}{A} & \color{red}{T}\\ \color{teal}{T} & \color{red}{A}\\ 5 & 3 \end{vmatrix}\\ \]

而如何一樣呢,只需要對半分開,然后計算一半長鏈的排列,另一半按配對填上就行了。即為 \(4^{n\over2}\) 。而只有偶數長度會有這種情況,奇數是不行的。

最后我們只要在除之前將這部分再加一份,求可以不多除了!

\[Ans(n)=\begin{cases} \frac{4^n}{2} & \text{$n=2k+1$}\\ \frac{1}{2}\times(4^n+4^{\frac{n}{2}}) & n=2k \end{cases} \]

這就是結論的式子啦!

經過打表檢驗正確。

至於 \(4^n\) 的來源,我們可以這么想,一般 \(DNA\) 分子是憑依在蛋白質載體上,所以按具體情況有辦法區分兩條排列一樣的鏈,所以所謂對稱就不存在了,但是若是單獨討論 \(DNA\) 答案即為而上述結論。

聲明與感謝

感謝兩位朋友 \(yyy\)\(zyl\) 的指點。(@opethrax @BeyondLimits


\(\frak by\; thorn\_\)


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM