1. spark 的四大組件下面哪個不是 ( D)
A.Spark Streaming B Mlib C Graphx D Spark R
2.下面哪個端口不是 spark 自帶服務的端口 (C )
A.8080 B.4040 C.8090 D.18080
3.spark 1.4 版本的最大變化 (B )
A spark sql Release 版本 B 引入 Spark R C DataFrame D支持動態資源分配
4. Spark Job 默認的調度模式 ( A)
A FIFO B FAIR C 無 D 運行時指定
5.哪個不是本地模式運行的個條件 (D )
A spark.localExecution.enabled=true B 顯式指定本地運行 C finalStage 無父 Stage D partition默認值
6.下面哪個不是 RDD 的特點 (C )
A. 可分區 B 可序列化 C 可修改 D 可持久化
7. 關於廣播變量,下面哪個是錯誤的 ( D)
A 任何函數調用 B 是只讀的 C 存儲在各個節點 D 存儲在磁盤或 HDFS
8. 關於累加器,下面哪個是錯誤的 (D )
A 支持加法 B 支持數值類型 C 可並行 D 不支持自定義類型
9.Spark 支持的分布式部署方式中哪個是錯誤的 (D )
A standalone B spark on mesos C spark on YARN D Spark on local
10.Stage 的 Task 的數量由什么決定 ( A)
A.Partition B.Job C.Stage D.TaskScheduler
11.下面哪個操作是窄依賴 (B )
A.join B.filter C group D sort
12.下面哪個操作肯定是寬依賴 (C )
A map B flatMap C reduceByKey D sample
13.spark 的 master 和 worker 通過什么方式進行通信的? (D )
A http B nio C netty D Akka
14 默認的存儲級別 ( A)
A MEMORY_ONLY B MEMORY_ONLY_SER
C MEMORY_AND_DISK D MEMORY_AND_DISK_SER
15 spark.deploy.recoveryMode 不支持那種 (D )
A.ZooKeeper B. FileSystem D NONE D hadoop
16.下列哪個不是 RDD 的緩存方法 (C )
A persist() B Cache() C Memory()
17.Task 運行在下來哪里個選項中 Executor 上的工作單元 (C )
A Driver program B. spark master C.worker node D Cluster manager
18.hive 的元數據存儲在 derby 和 mysql 中有什么區別 (B )
A.沒區別 B.多會話 C.支持網絡環境 D數據庫的區別
19.DataFrame 和 RDD 最大的區別 ( B)
A.科學統計支持B.多了 schema C.存儲方式不一樣 D.外部數據源支持
20.Master 的 ElectedLeader 事件后做了哪些操作 ( D)
A. 通知 driver B.通知 worker C.注冊 application D.直接 ALIVE
21.下列哪一項不是applicationMaster的功能(D )
22.Spark RDD中沒有的特性是(D)
A.位置優先B.分布式C.彈性D.固定大小
23.以下是Spark中executor的作用是( ABC)
A.保存計算的RDD分區數據B.向Driver反向注冊C.接受Driver端發送來的任務Task,作用在RDD上進行執行D.做資源調度任務
24.Stage 的 Task 的數量不是由什么決定(BCD )
A.Partition B.Job C.Stage D.TaskScheduler
25.spark的特點包括(ABD)
26.Task 運行不在以下選項中 Executor 上的工作單元(ABD)
27.關於spark容錯說法錯誤的有(AD)
28.SparkRdd 轉換算子有(ABC)
29.下面哪些端口是 spark 自帶服務的端口 (ABD)
30.關於spark中數據傾斜引發原因正確的選項有(ABCD)
31.Spark driver的功能是什么(ABD)
32.Master 的 ElectedLeader 事件后不做哪些操作(ABC)