使用內存映射文件MMF實現大數據量導出時的內存優化(Windows篇)


前言

     導出功能幾乎是所有應用系統必不可少功能,今天我們來談一談,如何使用內存映射文件MMF進行內存優化,本文重點介紹使用方法,相關原理可以參考文末的連接

實現

     我們以單次導出一個excel舉例(csv同理),excel包含1~n個sheet,在每個sheet中存儲的按行和列的坐標在單元格存儲具體數據,如果我們要使用MMF,第一個要考慮的就是如何將整個excel合理的存儲到MMF中。這里我們引入MMF兩個對象:

          MemoryMappedFile --表示內存映射文件

          MemoryMappedViewAccessor --表示隨機訪問的內存映射文件視圖


    使用MemoryMappedFile.CreateNew(string mapName, long capacity)可以得到一個指定名稱和指定大小的內存映射文件,以下簡稱mmf
          * 這里需要注意的是capacity為long類型,以字節為單位,通過計算可知文件大小上限為1G
    使用mmf.CreateViewAccessor(long offset, long size)可以得到一個從指定位置開始的指定大小空間的訪問器,以下簡稱accessor
          * 這里同樣需要注意的是size的大小,如果加上offset超過文件大小,會報System.UnauthorizedAccessException: Access to the path is denied.
    考慮到數據體積和管理成本,這里使用mmf對應sheet使用accessor對應一行數據
          * 這里有個需要注意的是mmf不能存儲引用類型,包括字符串...,折衷先將string轉為char[]然后使用WriteArray方法存儲,考慮到取數據的時候同樣需要使用char[]數組,而數組必須指定長度,我們將數組長度和具體數據都存起來,這樣取數據時候的索引也可以計算出來了

數據存儲示例:

 

 

 這面是具體的實現代碼:

        //添加外部引用防止被自動GC
        public List<MemoryMappedFile> mmfs = new List<MemoryMappedFile>();

        /// <summary>
        /// 寫入
        /// </summary>
        public void WriteMMF()
        {
            for(var f = 1; f <= 3; f ++)
            {
                //每一個File相當於一個excel的一個sheet(一個患者一行)
                var mmf = MemoryMappedFile.CreateNew($"mmftest{f}", 1024 * 1024 * 1024); //文件大小最大為1G

                for (var row = 0; row < 10; row++)
                {
                    //每一個ViewAccessor相當於excel的一行
                    var accessor = mmf.CreateViewAccessor(row * 1024 * 1024, 1024 * 1024); //通過具體數據量計算空間,offset位移為每個size的長度,size為1M
                    var index = 0;
                    for (var i = 0; i < 16384; i++)
                    {
                        //相當於一行的每一個cell
                        var buffer = ASCIIEncoding.UTF8.GetBytes($"測試第{row}行第{i}個單元格~!");
                        var length = buffer.Length;
                        accessor.Write(index, length);
                        accessor.WriteArray(index + 4, buffer, 0, length);
                        index += (length + 4);
                    }
                }
                mmfs.Add(mmf);
            }
        }

        /// <summary>
        /// 讀取
        /// </summary>
        public void ReadMMF()
        {
            for (var f = 1; f <= 3; f++)
            {
                using var mmf = MemoryMappedFile.OpenExisting($"mmftest{f}");
                for (var row = 0; row < 10; row++)
                {
                    using var accessor = mmf.CreateViewAccessor(row * 1024 * 1024, 1024 * 1024); //通過寫數據同時做的記錄控制大小
                    var index = 0;
                    for (var i = 0; i < 16384; i++)
                    {
                        var size = accessor.ReadInt32(index);
                        var buffer = new byte[size];
                        accessor.ReadArray(index + 4, buffer, 0, size);
                        var result = ASCIIEncoding.UTF8.GetString(buffer);
                        Console.WriteLine(result);
                        index += (size + 4);
                    }
                }
            }
        }

運行效果:

          * 這里有個需要注意的點是,如果不在外部引用mmf,如果創建多個mmf,只有最新一個能通過OpenExisting方法打開,其他的都報System.IO.FileNotFoundException,猜測是資源被釋放掉了

          * 還有個需要注意的點是,一定要計算好數據體積,不要超過mmf上限,使用accessor的時候也要注意,數據量實在太大可以考慮將一個sheet拆成多個mmf,或者將一行數據拆成多個accessor

    這樣就可以實現從數據庫獲然后處理再存儲到載體的流程,整個過程中內存使用控制在一個比較低的水平,當然,這是使用時間換空間,相應的導出時間會延長

    順便說一下,原本考慮后續使用epplus進行excel生成,后來發現npoi也和poi一樣有SXSSFWorkbook對象,可以流式讀取數據,配合內存映射文件可以實現整個導出過程

 

相關連接參考:

https://docs.microsoft.com/en-us/dotnet/api/system.io.memorymappedfiles?view=netframework-4.8 

https://www.cnblogs.com/flyant/p/4443187.html

https://www.bygeek.cn/2018/05/24/understand-memory-mapped-file/

https://stackoverflow.com/questions/10806518/write-string-data-to-memorymappedfile


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM