如題:有List<String> list1和List<String> list2,兩個集合各有上萬個元素,怎樣取出兩個集合中不同的元素?
方法1:遍歷兩個集合
1 public static void main(String[] args) { 2 List<String> list1 = new ArrayList<String>(); 3 List<String> list2 = new ArrayList<String>(); 4 5 for(int i = 0; i < 10000; i++){ 6 list1.add("test" + i); 7 list2.add("test" + i*2); 8 } 9 getDifferent(list1, list2); 10 getDiffrent2(list1, list2); 11 getDiffrent3(list1, list2); 12 getDiffrent4(list1, list2); 13 } 14 15 private static List<String> getDifferent(List<String> list1, List<String> list2){ 16 long startTime = System.currentTimeMillis(); 17 List<String> diff = new ArrayList<String>(); 18 for(String str : list1){ 19 if(!list2.contains(str)){ 20 diff.add(str); 21 } 22 } 23 System.out.println("Total Time: " + (System.currentTimeMillis() - startTime)); 24 return diff; 25 }
千萬不要采用這種方法,總共要循環的次數是兩個List的size相乘的積,從輸出看耗時也是比較長的,那么我們有沒有其他的方法呢?當然有.
方法2:采用List提供的retainAll()方法:
1 public static void main(String[] args) { 2 List<String> list1 = new ArrayList<String>(); 3 List<String> list2 = new ArrayList<String>(); 4 5 for (int i = 0; i < 10000; i++) { 6 list1.add("test" + i); 7 list2.add("test" + i * 2); 8 } 9 getDifferent(list1, list2); 10 } 11 12 private static List<String> getDiffrent2(List<String> list1, List<String> list2) { 13 long startTime = System.currentTimeMillis(); 14 list1.retainAll(list2); 15 System.out.println("Total Time: " + (System.currentTimeMillis() - startTime)); 16 return list1; 17 }
很遺憾,這種方式雖然只要幾行代碼就搞定,但是這個卻更耗時,查看retainAll()的源碼:
1 public boolean retainAll(Collection<?> c) { 2 boolean modified = false; 3 Iterator<E> e = iterator(); 4 while (e.hasNext()) { 5 if (!c.contains(e.next())) { 6 e.remove(); 7 modified = true; 8 } 9 } 10 return modified; 11 }
無需解釋這個耗時是必然的,那么我們還有沒有更好的辦法呢?仔細分析以上兩個方法中我都做了mXn次循環,其實完全沒有必要循環這么多次,我們的需求是找出兩個List中的不同元素,那么我可以這樣考慮:用一個map存放lsit的所有元素,其中的key為lsit1的各個元素,value為該元素出現的次數,接着把list2的所有元素也放到map里,如果已經存在則value加1,最后我們只要取出map里value為1的元素即可,這樣我們只需循環m+n次,大大減少了循環的次數。
1 private static List<String> getDiffrent3(List<String> list1, List<String> list2) { 2 long startTime = System.currentTimeMillis(); 3 Map<String, Integer> map = new HashMap<String, Integer>(list1.size() + list2.size()); 4 List<String> diff = new ArrayList<String>(); 5 for (String string : list1) { 6 map.put(string, 1); 7 } 8 for (String string : list2) { 9 Integer cc = map.get(string); 10 if (cc != null) { 11 map.put(string, ++cc); 12 continue; 13 } 14 map.put(string, 1); 15 } 16 for (Map.Entry<String, Integer> entry : map.entrySet()) { 17 if (entry.getValue() == 1) { 18 diff.add(entry.getKey()); 19 } 20 } 21 System.out.println("Total Time: " + (System.currentTimeMillis() - startTime)); 22 return list1; 23 }
顯然,這種方法大大減少耗時,是方法1的1/4,是方法2的1/40,這個性能的提升時相當可觀的,但是,這不是最佳的解決方法,觀察方法3我們只是隨機取了一個list作為首次添加的標准,這樣一旦我們的list2比list1的size大,則我們第二次put時的if判斷也會耗時,做如下改進:
1 private static List<String> getDiffrent4(List<String> list1, List<String> list2) { 2 long st = System.nanoTime(); 3 Map<String,Integer> map = new HashMap<String,Integer>(list1.size()+list2.size()); 4 List<String> diff = new ArrayList<String>(); 5 List<String> maxList = list1; 6 List<String> minList = list2; 7 if(list2.size()>list1.size()) 8 { 9 maxList = list2; 10 minList = list1; 11 } 12 for (String string : maxList) { 13 map.put(string, 1); 14 } 15 for (String string : minList) { 16 Integer cc = map.get(string); 17 if(cc!=null) 18 { 19 map.put(string, ++cc); 20 continue; 21 } 22 map.put(string, 1); 23 } 24 for(Map.Entry<String, Integer> entry:map.entrySet()) 25 { 26 if(entry.getValue()==1) 27 { 28 diff.add(entry.getKey()); 29 } 30 } 31 System.out.println("getDiffrent4 total times "+(System.nanoTime()-st)); 32 return diff; 33 34 }
這里對連個list的大小進行了判斷,小的在最后添加,這樣會減少循環里的判斷,性能又有了一定的提升,正如一位朋友所說,編程是無止境的,只要你認真去思考了,總會找到更好的方法!
非常感謝binglian的指正,針對List有重復元素的問題,做以下修正,首先明確一點,兩個List不管有多少個重復,只要重復的元素在兩個List都能找到,則不應該包含在返回值里面,所以在做第二次循環時,這樣判斷:如果當前元素在map中找不到,則肯定需要添加到返回值中,如果能找到則value++,遍歷完之后diff里面已經包含了只在list2里而沒在list2里的元素,剩下的工作就是找到list1里有list2里沒有的元素,遍歷map取value為1的即可:
1 private static List<String> getDiffrent5(List<String> list1, List<String> list2) { 2 long st = System.nanoTime(); 3 List<String> diff = new ArrayList<String>(); 4 List<String> maxList = list1; 5 List<String> minList = list2; 6 if(list2.size()>list1.size()) 7 { 8 maxList = list2; 9 minList = list1; 10 } 11 Map<String,Integer> map = new HashMap<String,Integer>(maxList.size()); 12 for (String string : maxList) { 13 map.put(string, 1); 14 } 15 for (String string : minList) { 16 if(map.get(string)!=null) 17 { 18 map.put(string, 2); 19 continue; 20 } 21 diff.add(string); 22 } 23 for(Map.Entry<String, Integer> entry:map.entrySet()) 24 { 25 if(entry.getValue()==1) 26 { 27 diff.add(entry.getKey()); 28 } 29 } 30 System.out.println("getDiffrent5 total times "+(System.nanoTime()-st)); 31 return diff; 32 33 }