源碼上看 .NET 中 StringBuilder 拼接字符串的實現


前幾天寫了一篇StringBuilderTextWriter二者之間區別的文章(鏈接)。當時提了一句沒有找到相關源碼,於是隨后有很多熱心人士給出了相關的源碼鏈接(鏈接),感謝大家。這幾天抽了點時間查看了下StringBuilder是如何動態構造字符串的,發現在.NET Core中字符串的構建似乎和我原先猜想的並不完全一樣,故此寫了這篇文章,如有錯誤,歡迎指出。

StringBuilder字段和屬性

字符數組

明確一點的是,StringBuilder的內部確實使用字符數組來管理字符串信息的,這一點上和我當時的猜測是差不多的。相較於字符串在大多數情況下的不變性而言,字符數組有其優點,即修改字符數組內部的數據不會全部重新創建字符數組(字符串的不變性)。下面是StringBuilder的部分源碼,可以看到,內部采用m_ChunkChars字段存儲字符數組信息。

public sealed class StringBuilder
{
    internal char[] m_ChunkChars;
    ...
}

然而,采用字符數組並不是沒有缺點,數組最大的缺點就是在在使用前就需要指定它的空間大小,這種固定大小的數組空間不可能有能力處理多次的字符串拼接,總有某次,數組中的空余部分塞不下所要拼接的字符串。如果某次拼接的字符串超過數組的空閑空間時,一種易想到做到的方法就是開辟一個更大的空間,並將原先的數據復制過去。這種方法能夠保證數組始終是連續的,然而,它的問題在於,復制是一個非常耗時的操作,如非必要,盡可能地降低復制的頻率。在.NET Core中,StringBuilder采用了一個新方法避免了復制操作。

單鏈表

為了能夠有效地提高性能,StringBuilder采用鏈表的形式規避了兩個字符數組之間的復制操作。在其源代碼中,可以發現每個StringBuilder內部保留對了另一個StringBuilder的引用。

public sealed class StringBuilder
{
    internal StringBuilder? m_ChunkPrevious;
    ...
}

StringBuilder中,每個對象都維護了一個m_ChunkPrevious引用,按字段命名的意思來說,就是每個類對象都維護指向前一個類對象的引用。這一點和我們常見的單鏈表結構有點一點不太一樣,常見的單鏈表結構中每個節點維護的是指向下一個節點的引用,這和StringBuilder所使用的模式剛好相反,挺奇怪的。整理下,這部分有兩個問題:

  1. 為什么說采用單鏈表能避免復制操作?
  2. 為什么采用逆向鏈表,即每個節點保留指向前一個節點的引用?

對於第一個問題,試想下,如果又有新的字符串需要拼接且其長度超過字符數組空閑的容量時,可以考慮新開辟一個新空間專門存儲超額部分的數據。這樣,先前部分的數據就不需要進行復制了,但這又有一個新問題,整個數據被存儲在兩個不相連的部分,怎么關聯他們,采用鏈表的形式將其關聯是一個可行的措施。以上就是StringBuilder拼接字符串最為核心的部分了。

那么,對於第二個問題,采用逆向鏈表對的好處是什么?這里我給出的原因屬於我個人的主觀意見,不一定對。從我平時使用上以及一些開源類庫中來看,對StringBuilder使用最廣泛的功能就是拼接字符串了,即向尾部添加新數據。在這個基礎上,如果采用正向鏈表(每個節點保留下一個節點的引用),那么多次拼接字符串在數組容量不夠的情況下,勢必需要每次循環找到最后一個節點並添加新節點,時間復雜度為O(n)。而采用逆向鏈表,因為用戶所持有的就是最后一個節點,只需要在當前節點上做些處理就可以添加新節點,時間復雜度為O(1)。因此,StringBuilder內的字符數組可以說是字符串的一個部分,也被稱為Chunk。

舉個例子,如果類型為Stringbuilder變量sb內已經保存了HELLO字符串,再添加WORLD時,如果字符數組滿了,再添加就會構造一個新StringBuilder節點。注意的是調用類方法不會改變當前變量sb指向的對象,因此,它會移動內部的字符數組引用,並將當前變量的字符數組引用指向WORLD。下圖中的左右兩圖是添加前后的說明圖,其中黃色StringBuilder是同一個對象。

鏈表

當然,采用鏈表並非沒有代價。因為鏈表沒有隨機讀取的功能。因此,如果向指定位置添加新數據,這反而比只使用一個字符數組來得慢。但是,如果前面的假設沒錯的話,也就是最頻繁使用的是尾部拼接的話,那么使用鏈表的形式是被允許的。根據使用場景頻率的不同,提供不同的實現邏輯。

各種各樣的長度

剩下來的部分,就是描述各種各樣的長度及其他數據。主要如下:

public sealed class StringBuilder
{
    internal int m_ChunkLength;
    internal int m_ChunkOffset;
    internal int m_MaxCapacity;
    internal const int DefaultCapacity = 16;
    internal const int MaxChunkSize = 8000;
    public int Length
    {
        get => m_ChunkOffset + m_ChunkLength;
    }
    ...
}
  • m_ChunkLength描述當前Chunk存儲信息的長度。也就是存儲了字符數據的長度,不一定等於字符數組的長度。
  • m_ChunkOffset描述當前Chunk在整體字符串中的起始位置,方便定位。
  • m_MaxCapacity描述構建字符串的最大長度,通常設置為int最大值。
  • DefaultCapacity描述默認設置的空間大小,這里設置的是16。
  • MaxChunkSize描述Chunk的最大長度,也就是Chunk的容量。
  • Length屬性描述的是內部保存整體字符串的長度。

構造函數

上述講述的是StringBuilder的各個字段和屬性的意義,這里就深入看下具體函數的實現。首先是構造函數,這里僅列舉本文所涉及到的幾個構造函數。

public StringBuilder()
{
    m_MaxCapacity = int.MaxValue;
    m_ChunkChars = new char[DefaultCapacity];
}

public StringBuilder(string? value, int startIndex, int length, int capacity)
{
    ...
    m_MaxCapacity = int.MaxValue;
    if (capacity == 0)
    {
        capacity = DefaultCapacity;
    }
    capacity = Math.Max(capacity, length);

    m_ChunkChars = GC.AllocateUninitializedArray<char>(capacity);
    m_ChunkLength = length;

    unsafe
    {
        fixed (char* sourcePtr = value)
        {
            ThreadSafeCopy(sourcePtr + startIndex, m_ChunkChars, 0, length);
        }
    }
}

private StringBuilder(StringBuilder from)
{
    m_ChunkLength = from.m_ChunkLength;
    m_ChunkOffset = from.m_ChunkOffset;
    m_ChunkChars = from.m_ChunkChars;
    m_ChunkPrevious = from.m_ChunkPrevious;
    m_MaxCapacity = from.m_MaxCapacity;
    ...
}

這里選出了三個和本文關系較為緊密的構造函數,一個個分析。

  1. 首先是默認構造函數,該函數沒有任何的輸入參數。代碼中可以發現,其分配的長度就是16。也就是說不對其做任何指定的話,默認初始長度為16個Char型數據,即32字節。
  2. 第二個構造函數是當構造函數傳入為字符串時所調用的,這里我省略了在開始最前面的防御性代碼。這里的構造過程也很簡單,比較傳入字符串的大小和默認容量DefaultCapacity的大小,並開辟二者之間最大值的長度,最后將字符串復制到數組中。可以發現的是,這種情況下,初始字符數組的長度並不總是16,畢竟如果字符串長度超過16,肯定按照更長的來。
  3. 第三個構造函數專門用來構造StringBuilder的節點的,或者說是StringBuilder的復制,即原型模式。它主要用在容量不夠構造新的節點,本質上就是將內部數據全部賦值過去。

從前兩個構造函數可以看出,如果第一次待拼接的字符串長度超過16,那么直接將該字符串以構造函數的參數傳入比構建默認StringBuilder對象再使用Append方法更加高效,畢竟默認構造函數只開辟了16個char型空間。

Append方法

這里主要看StringBuilder Append(char value, int repeatCount)這個方法(位於第710行)。該方法主要是向尾部添加char型字符value,一共添加repeatCount個。

public StringBuilder Append(char value, int repeatCount)
{
    ...

    int index = m_ChunkLength;
    while (repeatCount > 0)
    {
        if (index < m_ChunkChars.Length)
        {
            m_ChunkChars[index++] = value;
            --repeatCount;
        }
        else
        {
            m_ChunkLength = index;
            ExpandByABlock(repeatCount);
            Debug.Assert(m_ChunkLength == 0);
            index = 0;
        }
    }

    m_ChunkLength = index;
    AssertInvariants();
    return this;
}

這里僅列舉出部分代碼,起始的防御性代碼以及驗證代碼略過。看下其運行邏輯:

  1. 依次循環當前字符repeatCount次,對每一次執行以下邏輯。(while大循環)
  2. 如果當前字符數組還有空位時,則直接向內部進行添加新數據。(if語句命中部分)
  3. 如果當前字符數組已經被塞滿了,首先更新m_ChunkLength值,因為數組被塞滿了,因此需要下一個數組來繼續放數據,當前的Chunk長度也就是整個字符數組的長度,需要更新。其次,調用了ExpandByABlock(repeatCount)函數,輸入參數為更新后的repeatCount數據,其做的就是構建新的節點,並將其掛載到鏈表上。
  4. 更新m_ChunkLength值,記錄當前Chunk的長度,最后將本身返回。

接下來就是ExpandByABlock方法的實現。

private void ExpandByABlock(int minBlockCharCount)
{
    ...
    int newBlockLength = Math.Max(minBlockCharCount, Math.Min(Length, MaxChunkSize));
    ...

    // Allocate the array before updating any state to avoid leaving inconsistent state behind in case of out of memory exception
    char[] chunkChars = GC.AllocateUninitializedArray<char>(newBlockLength);

    // Move all of the data from this chunk to a new one, via a few O(1) pointer adjustments.
    // Then, have this chunk point to the new one as its predecessor.
    m_ChunkPrevious = new StringBuilder(this);
    m_ChunkOffset += m_ChunkLength;
    m_ChunkLength = 0;

    m_ChunkChars = chunkChars;

    AssertInvariants();
}

和上面一樣,僅列舉出核心功能代碼。

  1. 設置新空間的大小,該大小取決於三個值,從當前字符串長度和Chunk最大容量取較小值,然后從較小值和輸入參數長度中取最大值作為新Chunk的大小。值得注意的是,這里當前字符串長度通常是Chunk已經被塞滿的情況下,可以理解成所有Chunk的長度之和。
  2. 開辟新空間。
  3. 通過上述最后一個構造函數,構造向前的節點。當前節點仍然為最后一個節點,更新其他值,即偏移量應該是原先偏移量加上一個Chunk的長度。清空當前Chunk的長度以及將新開辟空間給Chunk引用。

對於Append(string? value)這個函數的實現功能和上述說明是差不多的,基本都是新數據先往當前的字符數組內塞,如果塞滿了就添加新節點並刷新當前字符數組數據再塞。詳細的功能可以從L802開始看。這里不做過多說明。

驗證

當然,以上只是閱讀代碼的流程,具體是否正確還可以做點測試來驗證。這里我做了一個小測試demo。

var sb = new StringBuilder();
sb.Append('1', 10);
sb.Append('2', 6);
sb.Append('3', 24);
sb.Append('4', 15);
sb.Append("hello world");
sb.Append("nice to meet you");
Console.WriteLine($"結果:{sb.ToString()}");

var p = sb;
char[] data;
Type type = sb.GetType();
int count = 0;
while (p != null)
{
    count++;
    data = (char[])type.GetField("m_ChunkChars", BindingFlags.NonPublic | BindingFlags.Instance).GetValue(p);
    Console.WriteLine($"倒數第{count}個StringBuilder內容:{new string(data)}");
    p = (StringBuilder)type.GetField("m_ChunkPrevious", BindingFlags.NonPublic | BindingFlags.Instance).GetValue(p);
}

這里主要做的是利用Append方法添加不同的數據並將最終結果輸出。考慮到內部的細節並沒有對外公開,只能通過反射的操作來獲取,通過遍歷每一個StringBuilder的節點,反射獲取內部的字符數組並將其輸出。最終的結果如下。

測試結果

這里分析下具體的過程:

  1. 第一句sb = new StringBuilder()。從之前的構造函數代碼內可以得知,無參構造函數會生成一個16長度的字符數組。
  2. 第二句sb.Append('1', 10)。這句話意思是向sb內添加10個1字符,因為添加的長度小於給定的默認值16,因此直接將其添加即可。
  3. 第三句sb.Append('2', 6)。在經過上面添加操作后,當前字符數組還剩6個空間,剛好夠塞,因此直接將6個2字符直接塞進去。
  4. 第四句sb.Append('3', 24)。在添加字符3之前,StringBuilder內部的字符數組就已經沒有空間了。為此,需要構造新的StringBuilder對象,並將當前對象內的數據傳過去。對於當前對象,需要創建新的字符數組,按照之前給出的規則,當前Chunk之和(16)和Chunk長度(8000)取最小值(16),最小值(16)和輸入字符串長度(24)取最大值(24)。因此,直接創建24個字符空間並存下來。此時,sb對象有一個前置節點。
  5. 第五句sb.Append('4', 15)。上一句代碼只創建了長度為24的字符數組,因此,新數據依然無法再次塞入。此時,依舊需要創建新的StringBuilder節點,按照同樣的規則,取當前所有Chunk之和(16+24=40)。因此,新字符數組長度為40,內部存了15個字符數據4sb對象有兩個前置節點。
  6. 第六句sb.Append("hello world")。這個字符串長度為11,當前字符數組能完全放下,則直接放下。此時字符數組還空余14個空間。
  7. 第七句sb.Append("nice to meet you")。這個字符串長度為16,可以發現超過了剩余空間,首先先填充14個字符。之后多出的2個,則按照之前的規則再構造新的節點,新節點的長度為所有Chunk之和(16+24+40=80),即有80個存儲空間。當前Chunk只存儲最后兩個字符ousb對象有3個前置節點。符合最終的輸出結果。

總結

總的來說,采用定長的字符數組來保存不定長的字符串,不可能完全避免所添加的數據超出剩余空間這樣的情況,重新開辟新空間並復制原始數據過於耗時。StringBuilder采用鏈表的形式取消了數據的復制操作,提高了字符串連接的效率。對於StringBuilder來說,大部分的操作都在尾部添加,采用逆向鏈表是一個不錯的形式。當然StringBuilder這個類本身有很多復雜的實現,本篇只是介紹了Append方法是如何進行字符串拼接的。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM