C#實現大數據量TXT文本數據快速高效去重

本文轉載自查看原文 2018-05-31 18:56 1581 C#

//對幾千萬的TXT文本數據進行去重處理，查找其中重復的數據，並移除。嘗試了各種方法，下屬方法是目前嘗試到最快的方法。以下代碼將重復和不重復數據進行分文件存放，提升效率的關鍵是用到了HashSet。
                TextReader reader = File.OpenText(m_dataFilePath);
                string[] files = new string[2];
                files[0] = ROOT_DIR + "不重復數據.txt";
                files[1] = ROOT_DIR + "重復數據.txt";
                TextWriter writer1 = File.CreateText(files[0]);
                TextWriter writer2 = File.CreateText(files[1]);
                string currentLine;
                int idx = 0;
                HashSet<string> previousLines = new HashSet<string>(new MyEqualityComparer());
                while ((currentLine = reader.ReadLine()) != null)
                {
                    if ((++idx % 10000) == 0)
                        UpdateInfo("正在比對第 " + idx + " 條數據…");
                    currentLine = currentLine.TrimEnd();
                    if (previousLines.Add(currentLine))
                    {
                        writer1.WriteLine(currentLine);
                    }
                    else
                    {
                        if(m_allSave)
                            writer2.WriteLine(currentLine);
                    }
                }
                reader.Close();
                writer1.Close();
                writer2.Close();
                reader.Dispose();
                writer1.Dispose();
                writer2.Dispose();

//1000萬數據的處理時間也就是轉瞬之間，試試看？

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 C#批量生成大數據量無重復隨機數據的另類高效實現 MySQL大數據量快速分頁實現 C#關於Access大數據量的導入 C#拼接SQL語句，SQL Server 2005+，多行多列大數據量情況下，使用ROW_NUMBER實現的高效分頁排序使用OPENROWSET、Microsoft.ACE.OLEDB實現大數據量的高效導入 MYSQL 快速備份大數據量 C#實現把txt文本數據快速讀取到excel中 POI實現excel大數據量導入 wcf webHttpBinding Post 大數據量提交 ios c＃客戶端 C# 之提高WebService性能大數據量網絡傳輸處理