Spark的歷史與發展(目錄)


對於一個具有相當技術門檻與復雜度的平台,Spark從誕生到正式版本的成熟,經歷的時間如此之短,讓人感到驚詫。2009年,Spark誕生於伯克利大學AMPLab,最開初屬於伯克利大學的研究性項目。它於2010年正式開源,並於2013年成為了Aparch基金項目,並於2014年成為Aparch基金的頂級項目,整個過程不到五年時間。

下面點滴記錄 Spark 的版本發展過程。

  • now
  • 2018-02-28,Spark 2.3.0發布
    • 這也是 2.x 系列中的第四個版本。此版本增加了對 Structured Streaming 中的 Continuous Processing 以及全新的 Kubernetes Scheduler 后端的支持。其他主要更新包括新的 DataSource 和 Structured Streaming v2 API,以及一些 PySpark 性能增強。此外,此版本繼續針對項目的可用性、穩定性進行改進,並持續潤色代碼。
    • 具體參見:
      1. Apache Spark 2.3.0 正式發布
      2. Apache Spark 2.3.0 重要特性介紹
  • 2017-12-01,Spark 2.2.1發布
  • 2017-10-09,Spark 2.1.2發布
  • 2017-07-11,Spark 2.2.0發布
    • 這也是 2.x 系列的第三個版本。此版本移除了 Structured Streaming 的實驗標記(experimental tag),意味着已可以放心在線上使用。
    • 該版本的主要更新內容主要針對的是系統的可用性、穩定性以及代碼潤色。包括:
      1. Core 和 Spark SQL 的 API 升級和性能、穩定性改進,比如支持從 Hive metastore 2.0/2.1 中讀取數據;支持解析多行的 JSON 或 CSV 文件;移除對 Java 7 的支持;移除對 Hadoop 2.5 及更早版本的支持 等
      2. SparkR 針對現有的 Spark SQL 功能添加了更廣泛的支持,比如 Structured Streaming 為 R 語言提供的 API ;R 語言支持完整的 Catalog API ;R 語言支持 DataFrame checkpointing 等
    • 具體參見:
      1. Apache Spark 2.2.0 正式發布
      2. Apache Spark 2.2.0 新特性詳細介紹
  • 2017-05-02,Spark 2.1.1發布
  • 2016-12-28,Spark 2.1.0發布
    • 這是 2.x 版本線的第二個發行版。此發行版在為Structured Streaming進入生產環境做出了重大突破,Structured Streaming現在支持了event time watermarks了,並且支持Kafka 0.10。此外,此版本更側重於可用性,穩定性和優雅(polish),並解決了1200多個tickets。
  • 2016-11-24,Spark 2.0.2發布
  • 2016-11-07,Spark 1.6.3發布
  • 2016-10-03,Spark 2.0.1發布
  • 2016-07-26,Spark 2.0.0發布
    • 該版本主要更新APIs,支持SQL 2003,支持R UDF ,增強其性能。300個開發者貢獻了2500補丁程序。
  • 2016-06-25,Spark 1.6.2發布
  • 2016-03-09,Spark 1.6.1發布
  • 2016-01-04,Spark 1.6.0發布
    • 該版本含了超過1000個patches,在這里主要展示三個方面的主題:新的Dataset API,性能提升(讀取Parquet 50%的性能提升,自動內存管理,streaming state management十倍的性能提升),以及大量新的機器學習和統計分析算法。
    • 在Spark1.3.0引入DataFrame,它可以提供high-level functions讓Spark更好的處理數據結構和計算。這讓Catalyst optimizer 和Tungsten execution engine自動加速大數據分析。發布DataFrame之后開發者收到了很多反饋,其中一個主要的是大家反映缺乏編譯時類型安全。為了解決這個問題,Spark采用新的Dataset API (DataFrame API的類型擴展)。Dataset API擴展DataFrame API支持靜態類型和運行已經存在的Scala或Java語言的用戶自定義函數。對比傳統的RDD API,Dataset API提供更好的內存管理,特別是在長任務中有更好的性能提升。
  • 2015-11-02,Spark 1.5.2發布
  • 2015-10-06,Spark 1.5.1發布
  • 2015-09-09,Spark 1.5.0發布
    • Spark 1.5.0是1.x線上的第6個發行版。這個版本共處理了來自230+contributors和80+機構的1400+個patches。
    • Spark 1.5的許多改變都是圍繞在提升Spark的性能、可用性以及操作穩定性。
    • Spark 1.5.0焦點在Tungsten項目,它主要是通過對低層次的組建進行優化從而提升Spark的性能。
    • Spark 1.5版本為Streaming增加了operational特性,比如支持backpressure。另外比較重要的更新就是新增加了一些機器學習算法和工具,並擴展了Spark R的相關API。
  • 2015-07-15,Spark 1.4.1發布
    • DataFrame API及Streaming,Python,SQL和MLlib的bug修復
  • 2015-06-11,Spark 1.4.0發布
    • 該版本將 R API 引入 Spark,同時提升了 Spark 的核心引擎和 MLlib ,以及 Spark Streaming 的可用性。
  • 2015-03-13,Spark 1.3.0發布
    • 該版本發布的最大亮點是新引入的DataFrame API,對於結構型的DataSet,它提供了更方便更強大的操作運算。。除了DataFrame之外,還值得關注的一點是Spark SQL成為了正式版本,這意味着它將更加的穩定,更加的全面。
  • 2015-02-09,Spark 1.2.1發布
    • Spark核心API及Streaming,Python,SQL,GraphX和MLlib的bug修復
  • 2014-12-18,Spark 1.2.0發布
  • 2014-11-26,Spark 1.1.1發布
    • Spark核心API及Streaming,Python,SQL,GraphX和MLlib的bug修復
  • 2014-09-11,Spark 1.1.0發布
  • 2014-08-05,Spark 1.0.2發布
    • Spark核心API及Streaming,Python,MLlib的bug修復
  • 2014-07-11,Spark 1.0.1發布
    • 增加了Spark SQL的新特性和堆JSON數據的支持等
  • 2014-05-30,Spark 1.0.0發布
    • 增加了Spark SQL、MLlib、GraphX和Spark Streaming都增加了新特性並進行了優化。Spark核心引擎還增加了對安全YARN集群的支持
  • 2014-04-09,Spark 0.9.1發布
    • 增加使用YARN的穩定性,改進Scala和Python API的奇偶性
  • 2014-02-02,Spark 0.9.0發布
    • 增加了GraphX,機器學習新特性,流式計算新特性,核心引擎優化(外部聚合、加強對YARN的支持)等
  • 2013-12-19,Spark 0.8.1發布
    • 支持Scala 2.9,YARN 2.2,Standalone部署模式下調度的高可用性,shuffle的優化等
  • 2013-09-25,Spark 0.8.0發布
    • 一些新功能及可用性改進
  • 2013-07-16,Spark 0.7.3發布
    • 一些bug的解決,更新Spark Streaming API等
  • 2013-06-21,Spark接受進入Apache孵化器
  • 2013-06-02,Spark 0.7.2發布
  • 2013-02-27,Spark 0.7.0發布
    • 增加了更多關鍵特性,例如:Python API、Spark Streaming的alpha版本等
  • 2013-02-07,Spark 0.6.2發布
    • 解決了一些bug,並增強了系統的可用性
  • 2012-10-15,Spark 0.6.0發布
    • 大范圍的性能改進,增加了一些新特性,並對Standalone部署模式進行了簡化
  • 2010 ,Spark正式對外開源
  • 2009 ,Spark誕生於UCBerkeley的AMP實驗室


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM