某天參加阿里面試，技術面的時候，面試官問了排序問題：

問題一：若有1T的數據，比如只有兩列，身份證號和姓名需要實現由大到小排序，你用什么辦法，能否做到復雜度為O(n),說說你的思路和想法？

問題二：有10個G的數據，也是一樣，比如兩列，身份證號和姓名，如果兩條數據一樣，則表示該兩條數據重復了，現在給你512的內存，把這10G中重復次數最高的10條數據取出來。

我的思路是：這么大的數據，用普通的排序一定不行，

可以這樣，用身份證號的前三位切割這個數據，這樣會分成999份，

每一份再進行排序，比如構造一個平衡二叉樹，最典型的的就是TreeMap和TreeSet（TreeSet底層是使用了TreeMap算法，而TreeMap算法底層是實現了紅黑樹的平衡二叉樹的排序）；

然后按照文件名進行排序，這樣就實現了大數據排序；

因為排序二叉樹的復雜度為O(lgn)到O(n) ;

因此我們可以做到 O(n)

問題二：

解法是一樣的按照身份證號前三位分割999份，然后對這每個文件找到重復的最多的十條，這樣，我們得到了999個文件，每個文件有 10條數據

在對這個999*10條進行排序找到重復率最高的十條即可；

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 記錄問題，當數據量很大的時候，刪除數據mysql會報異常：[Err] 1206 - The total number of locks exceeds the lock table size 鎖總數超過鎖表大小 es在數據量很大的情況下（數十億級別）如何提高查詢效率啊？ oracle 查看所有表的數據量並排序對大數據量進行排序--位圖法批量插入SQL（適用於數據量十萬級以上的快速大量插入） Spark大數據量寫入Mysql效率問題優化5億數據量 MySQL數據庫如何解決大數據量存儲問題 MySQL數據庫解決大數據量存儲問題利用MySQL數據庫如何解決大數據量存儲問題？