【Python包】pandas和koalas


1.pandas介紹

Python 數據科學在過去幾年中爆炸式增長, pandas 已成為生態系統的關鍵。當數據科學家得到一個數據集時,他們會使用 pandas 進行探索。它是數據處理和分析的終極工具。

pandas 不能很好地在大數據中規模應用,因為它專為單個機器可以處理的小型數據集而設計。許多數據科學家將 pandas 用於職業培訓、偏好性項目和小型數據任務。

2.Koalas介紹

Apache Spark 已成為處理大數據實際上的標准。當他們使用非常大的數據集時,他們必須遷移到 PySpark 以利用 Spark,或對其數據進行下采樣以使用 pandas。

現在有了 Koalas,數據科學家可以從單個機器遷移到分布式環境,而無需學習新的框架。正如你在下面所看到的,只需替換一個包,就可以使用 Koalas 在 Spark 上擴展你的 pandas 代碼。

 

參考文檔:

Koalas:讓 pandas 輕松切換 Apache Spark,在大數據中規模應用

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM