C++ string實現原理


C++程序員編碼過程中經常會使用string(wstring)類,你是否思考過它的內部實現細節。比如這個類的迭代器是如何實現的?對象占多少字節的內存空間?內部有沒有虛函數?內存是如何分配的?構造和析構的成本有多大?筆者綜合這兩天閱讀的源代碼及個人理解簡要介紹之,錯誤的地方望讀者指出。

首先看看string和wstring類的定義:

 

[cpp]  view plain copy 在CODE上查看代碼片 派生到我的代碼片
 
  1. typedef basic_string<char, char_traits<char>, allocator<char> > string;  
  2. typedef basic_string<wchar_t, char_traits<wchar_t> allocator<wchar_t> > wstring;  

 

從這個定義可以看出string和wstring分別是模板類basic_string對char和wchar_t的特化。

再看看basic_string類的繼承關系(類方法未列出):

最頂層的類是_Container_base,它也是STL容器的基類,Debug下包含一個_Iterator_base*的成員,指向容器的最開始的元素,這樣就能遍歷容器了,並定義了了兩個函數

 

[cpp]  view plain copy 在CODE上查看代碼片 派生到我的代碼片
 
  1. void _Orphan_all() const;   // orphan all iterators  
  2. void _Swap_all(_Container_base_secure&) const;  // swaps all iterators  

Release下_Container_base只是一個空的類。

_String_base類沒有數據成員,只定義了異常處理的三個函數:

 

[cpp]  view plain copy 在CODE上查看代碼片 派生到我的代碼片
 
  1. static void _Xlen();    // report a length_error  
  2. static void _Xran();    // report an out_of_range error  
  3. static void _Xinvarg();  

_String_val包含一個alloctor的對象,這個類也非常簡單,除了構造函數沒有定義其它函數。
上面三個基類都定義得很簡單,而basic_string類的實現非常復雜。不過它的設計和大多數標准庫一樣,把復雜的功能分成幾部分去實現,充分體現了模塊的低耦合。

 

迭代器有關的操作交給_String_iterator類去實現,元素相關的操作交給char_traits類去實現,內存分配交給allocator類去實現。

_String_iterator類的繼承關系如下圖:

這個類實現了迭代器的通用操作,比如:

 

[cpp]  view plain copy 在CODE上查看代碼片 派生到我的代碼片
 
  1. reference  operator*() const;  
  2. pointer operator->() const  
  3. _String_iterator & operator++()  
  4. _String_iterator operator++(int)  
  5. _String_iterator& operator--()  
  6. _String_iterator operator--(int)  
  7. _String_iterator& operator+=(difference_type _Off)  
  8. _String_iterator operator+(difference_type _Off) const  
  9. _String_iterator& operator-=(difference_type _Off)  
  10. _String_iterator operator-(difference_type _Off) const  
  11. difference_type operator-(const _Mybase& _Right) const  
  12. reference operator[](difference_type _Off) const  

 

有了迭代器的實現,就可以很方便的使用算法庫里面的函數了,比如將所有字符轉換為小寫:

 

[cpp]  view plain copy 在CODE上查看代碼片 派生到我的代碼片
 
  1. string s("Hello String");  
  2. transform(s.begin(), s.end(), s.begin(), tolower);  

 

char_traits類圖如下:


這個類定義了字符的賦值,拷貝,比較等操作,如果有特殊需求也可以重新定義這個類。

allocator類圖如下:

這個類使用new和delete完成內存的分配與釋放等操作。你也可以定義自己的allocator,msdn上有介紹哪些方法是必須定義的。

再看看basic_string類的數據成員:

_Mysize表示實際的元素個數,初始值為0;

_Myres表示當前可以存儲的最大元素個數(超過這個大小就要重新分配內存),初始值是_BUF_SIZE-1;

 

_BUF_SIZE是一個enum類型:

 

[cpp]  view plain copy 在CODE上查看代碼片 派生到我的代碼片
 
  1. enum  
  2. {   // length of internal buffer, [1, 16]  
  3.     _BUF_SIZE = 16 / sizeof (_Elem) < 1 ? 1: 16 / sizeof(_Elem)  
  4. };  

 

從這個定義可以得出,針對char和wchar_t它的值分別是16和8。

_Bxty是一個union:

 

[cpp]  view plain copy 在CODE上查看代碼片 派生到我的代碼片
 
  1. union _Bxty  
  2. {   // storage for small buffer or pointer to larger one  
  3.     _Elem _Buf[_BUF_SIZE];  
  4.     _Elem *_Ptr;  
  5. } _Bx;  

 

為什么要那樣定義_Bxty呢,看下面這段代碼:

 

[cpp]  view plain copy 在CODE上查看代碼片 派生到我的代碼片
 
  1. _Elem * _Myptr()  
  2. {   // determine current pointer to buffer for mutable string  
  3.     return (_BUF_SIZE <= _Myres ? _Bx._Ptr : _Bx._Buf);  
  4. }  

這個函數返回basic_string內部的元素指針(c_str函數就是調用這個函數)。

 

所以當元素個數小於_BUF_SIZE時不用分配內存,直接使用_Buf數組,_Myptr返回_Buf。否則就要分配內存了,_Myptr返回_Ptr。

不過內存分配策略又是怎樣的呢?看下面這段代碼:

 

[cpp]  view plain copy 在CODE上查看代碼片 派生到我的代碼片
 
  1. void _Copy(size_type _Newsize, size_type _Oldlen)  
  2. {   // copy _Oldlen elements to newly allocated buffer  
  3.     size_type _Newres = _Newsize | _ALLOC_MASK;  
  4.     if (max_size() < _Newres)  
  5.         _Newres = _Newsize; // undo roundup if too big  
  6.     else if (_Newres / 3 < _Myres / 2 && _Myres <= max_size() - _Myres / 2)  
  7.         _Newres = _Myres + _Myres / 2;  // grow exponentially if possible  
  8.     //other code  
  9. }  

_ALLOC_MASK的值是_BUF_SIZE-1。這段代碼看起來有點復雜,簡單描述就是:最開始_Myres每次增加_BUF_SIZE,當值達到一定大小時每次增加一半。

 

 

針對char和wchar_t,每次分配內存的臨界值分別是(超過這些值就要重新分配):

char:15,31,47,70,105,157,235,352,528,792,1188,1782。。。

wchar_t:7, 15, 23, 34, 51, 76, 114, 171, 256, 384, 576, 864, 1296, 1944。。。

重新分配后都會先將舊的元素拷貝到新的內存地址。所以當處理一個長度會不斷增長而又大概知道最大大小時可以先調用reserve函數預分配內存以提高效率。

string類占多少字節的內存空間呢?

_Container_base Debug下含有一個指針,4字節,Release下是空類,0字節。_String_val類含有一個allocator對象。string類使用默認的allocator類,這個類沒有數據成員,不過按字節對齊的原則,它占4字節。basic_string類的成員加起來是24,所以總共是32字節(Debug)或28字節(Relase)。wstring也是32或28,至於原因文中已經分析。

 

綜上所述:string和wstring類借助_String_iterator實現迭代器操作,都占32(Debug)或28(Release)字節的內存空間,沒有虛函數,構造和析構開銷較低,內存分配比較靈活。

實際使用string類時也有很多不方便的地方,筆者寫了一個擴展類,歡迎提出寶貴意見。

擴展類鏈接:http://blog.csdn.net/passion_wu128/article/details/38354541

http://blog.csdn.net/passion_wu128/article/details/38353959


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM