1.pandas介紹
Python 數據科學在過去幾年中爆炸式增長, pandas 已成為生態系統的關鍵。當數據科學家得到一個數據集時,他們會使用 pandas 進行探索。它是數據處理和分析的終極工具。
pandas 不能很好地在大數據中規模應用,因為它專為單個機器可以處理的小型數據集而設計。許多數據科學家將 pandas 用於職業培訓、偏好性項目和小型數據任務。
2.Koalas介紹
Apache Spark 已成為處理大數據實際上的標准。當他們使用非常大的數據集時,他們必須遷移到 PySpark 以利用 Spark,或對其數據進行下采樣以使用 pandas。
現在有了 Koalas,數據科學家可以從單個機器遷移到分布式環境,而無需學習新的框架。正如你在下面所看到的,只需替換一個包,就可以使用 Koalas 在 Spark 上擴展你的 pandas 代碼。
參考文檔:
Koalas:讓 pandas 輕松切換 Apache Spark,在大數據中規模應用