Java Stream流式思想


說到Stream便容易想到I/O Stream,而實際上,誰規定“流”就一定是“IO流”呢?在Java 8中,得益於Lambda所帶來的函數式編程,引入了一個全新的Stream概念,用於解決已有集合類庫既有的弊端。

引言

傳統集合的多步遍歷代碼

幾乎所有的集合(如 Collection 接口或 Map 接口等)都支持直接或間接的遍歷操作。而當我們需要對集合中的元 素進行操作的時候,除了必需的添加、刪除、獲取外,最典型的就是集合遍歷。例如:

import java.util.List;
import java.util.ArrayList;
import java.util.Collections;

public class DemoForEach {
    public static void main(String[] args) {
        List<String> list = new ArrayList<>();

        Collections.addAll(list, "Java", "C", "Python", "Hadoop", "Spark");

        for (String s : list) {
            System.out.println(s);
        }
    }
}

運行程序,控制台輸出:

Java
C
Python
Hadoop
Spark

這是一段非常簡單的集合遍歷操作:對集合中的每一個字符串都進行打印輸出操作。

循環遍歷的弊端

Java 8的Lambda讓我們可以更加專注於做什么(What),而不是怎么做(How)。

現在,我們仔細體會一下上例代碼,可以發現:

  • for循環的語法就是“怎么做”
  • for循環的循環體才是“做什么”

為什么使用循環?因為要進行遍歷。但循環是遍歷的唯一方式嗎?遍歷是指每一個元素逐一進行處理,而並不是從第一個到最后一個順次處理的循環。前者是目的,后者是方式。

試想一下,如果希望對集合中的元素進行篩選過濾:

  1. 將集合A根據條件一過濾為子集B;
  2. 然后再根據條件二過濾為子集C。

那怎么辦?在Java 8之前的做法可能為:

import java.util.ArrayList;
import java.util.Collections;
import java.util.List;

public class DemoNormalFilter {
    public static void main(String[] args) {
        List<String> list = new ArrayList<>();
        Collections.addAll(list, "Java", "C", "Python", "Hadoop", "Spark");

        System.out.print("篩選前的集合:");
        for (String s : list) {
            System.out.print(s + ",");
        }
        System.out.println();

        System.out.print("經過條件1篩選后的集合:");
        for (String s : list) {
            if (s.length() >= 4) {
                System.out.print(s + ",");
            }
        }
        System.out.println();

        System.out.print("經過條件2篩選后的集合:");
        for (String s : list) {
            if (s.length() >= 5) {
                System.out.print(s + ",");
            }
        }
        System.out.println();
    }
}

運行程序,控制台輸出:

篩選前的集合:Java,C,Python,Hadoop,Spark,
經過條件1篩選后的集合:Java,Python,Hadoop,Spark,
經過條件2篩選后的集合:Python,Hadoop,Spark,

這段代碼中含有三個循環,每一個作用不同:

1、首先從頭到尾,遍歷輸出集合。

2、然后篩選字符串長度大於等於4的元素,並輸出。

3、最后篩選字符串長度大於等於5的元素,並輸出。

每當我們需要對集合中的元素進行操作的時候,總是需要進行循環、循環、再循環。這是理所當然的么?不是。循環是做事情的方式,而不是目的。另一方面,使用線性循環就意味着只能遍歷一次。如果希望再次遍歷,只能再使用另一個循環從頭開始。

那么,Lambda的衍生物Stream能給我們帶來怎樣更加優雅的寫法呢?下面我們來看一下Stream的更優寫法。

Stream的更優寫法

下面來看一下借助Java 8的Stream API,什么才叫優雅:

import java.util.ArrayList;
import java.util.Collections;
import java.util.List;

public class Demo01Stream {
    public static void main(String[] args) {
        List<String> list = new ArrayList<>();
        Collections.addAll(list, "Java", "C", "Python", "Hadoop", "Spark");

        list.stream()
                .filter((s) -> s.length() >= 4)
                .filter((s) -> s.length() >= 5)
                .forEach((s) -> System.out.println(s));
    }
}

運行程序,控制台輸出:

Python
Hadoop
Spark

篩選的結果與上面的例子一致。

直接閱讀代碼的字面意思即可完美展示無關邏輯方式的語義:獲取流、過濾長度小於4的、過濾長度小於5的、逐一打印。代碼 中並沒有體現使用線性循環或是其他任何算法進行遍歷,我們真正要做的事情內容被更好地體現在代碼中。

上面程序用到的方法:

stream()方法

利用stream()方法,來獲取流。該方法是java.util.Collection接口中的一個默認方法,方法源碼如下:

// 返回以該集合為源的序列流。
default Stream<E> stream() {
    return StreamSupport.stream(spliterator(), false);
}

filter()方法

該方法是java.util.stream包中的Stream接口里的一個抽象方法,方法源碼如下:

// 返回由與給定 {predicate} 匹配的此流元素組成的流。
Stream<T> filter(Predicate<? super T> predicate);

該方法的返回值是一個流,傳入的參數是一個函數式接口:java.util.function.Predicate,該接口可以對某種類型的數據進行判斷,然后返回一個布爾值。

forEach()方法

該方法是java.util.stream包中Stream接口里的一個抽象方法,方法源碼如下:

// 對該流的每個元素執行操作。
void forEach(Consumer<? super T> action);

該方法沒有返回值,傳入的參數是一個函數式接口:java.util.function.Consumer。它的作用是:消費一個數據, 其數據類型由泛型決定。

上面例子的代碼可以進行改善:

import java.util.ArrayList;
import java.util.Collections;
import java.util.List;

public class Demo02Stream {
    public static void main(String[] args) {
        List<String> list = new ArrayList<>();
        Collections.addAll(list, "Java", "C", "Python", "Hadoop", "Spark");

        list.stream()
                .filter((s) -> s.length() >= 4)
                .filter((s) -> s.length() >= 5)
                .forEach(System.out::println);
    }
}

其實就是修改了forEach()方法中傳入的參數,

System.out::println
(s) -> System.out.println(s)

這兩者是等價的。

流式思想概述

注意:請暫時忘記對傳統IO流的固有印象!

整體來看,流式思想類似於工廠車間的“生產流水線”。

img

當需要對多個元素進行操作(特別是多步操作)的時候,考慮到性能及便利性,我們應該首先拼好一個“模型”步驟 方案,然后再按照方案去執行它。

img

這張圖中展示了過濾、映射、跳過、計數等多步操作,這是一種集合元素的處理方案,而方案就是一種“函數模型”。圖中的每一個方框都是一個“流”,調用指定的方法,可以從一個流模型轉換為另一個流模型。而最右側的數字 3是最終結果。

這里的 filter 、 map 、 skip 都是在對函數模型進行操作,集合元素並沒有真正被處理。只有當終結方法 count 執行的時候,整個模型才會按照指定策略執行操作。而這得益於Lambda的延遲執行特性

備注:“Stream流”其實是一個集合元素的函數模型,它並不是集合,也不是數據構,其本身並不存儲任何元素(或其地址值)。

Stream(流)是一個來自數據源的元素隊列

  • 元素是特定類型的對象,形成一個隊列。 Java中的Stream並不會存儲元素,而是按需計算。
  • 數據源:流的來源。 可以是集合,數組等。

和以前的Collection操作不同, Stream操作還有兩個基礎的特征:

  • Pipelining:中間操作都會返回流對象本身。 這樣多個操作可以串聯成一個管道, 如同流式風格(fluent style)。 這樣做可以對操作進行優化, 比如延遲執行(laziness)和短路( short-circuiting)。
  • 內部迭代:以前對集合遍歷都是通過Iterator或者增強for的方式,顯式的在集合外部進行迭代,這叫做外部迭代。 Stream提供了內部迭代的方式,流可以直接調用遍歷方法。

當使用一個流的時候,通常包括三個基本步驟:獲取一個數據源(source)→ 數據轉換→執行操作獲取想要的結果,每次轉換原有Stream 對象不改變,返回一個新的 Stream 對象(可以有多次轉換),這就允許對其操作可以 像鏈條一樣排列,變成一個管道。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM