大數據技術-題庫


大數據技術-題庫

1、第一次信息化浪潮主要解決什么問題?

A、 信息傳輸

B、 信息處理

C、 信息爆炸

D、 信息轉換

2、下面哪個選項屬於大數據技術的"數據存儲和管理"技術層面的功能?

A、 利用分布式文件系統、數據倉庫、關系數據庫等實現對結構化、半結構化 和非結構化海量數據的存儲和管理

B、 利用分布式並行編程模型和計算框架,結合機器學習和數據挖掘算法,實 現對海量數據的處理和分析

C、 構建隱私數據保護體系和數據安全體系,有效保護個人隱私和數據安全

D、 把實時采集的數據作為流計算系統的輸入,進行實時處理分析

3、在大數據的計算模式中,流計算解決的是什么問題?

A、 針對大規模數據的批量處理

B、 針對大規模圖結構數據的處理

C、 大規模數據的存儲管理和查詢分析

D、 針對流數據的實時計算

4、大數據產業指什么?

A、 一切與支撐大數據組織管理和價值發現相關的企業經濟活動的集合

B、 提供智能交通、智慧醫療、智能物流、智能電網等行業應用的企業

C、 提供數據分享平台、數據分析平台、數據租售平台等服務的企業

D、 提供分布式計算、數據挖掘、統計分析等服務的各類企業

5、下列哪一個不屬於大數據產業的產業鏈環節?

A、 數據存儲層

B、 數據源層

C、 數據分析層

D、 數據應用層

6、下列哪一個不屬於 IT 領域最新的技術發展趨勢?

A、 互聯網

 

B、 雲計算

C、 大數據

D、 物聯網

7、雲計算平台層(PaaS)指的是什么?

A、 操作系統和圍繞特定應用的必需的服務

B、 將基礎設施(計算資源和存儲)作為服務出租

C、 從一個集中的系統部署軟件,使之在一台本地計算機上(或從雲中遠程地) 運行的一個模型

D、 提供硬件、軟件、網絡等基礎設施以及提供咨詢、規划和系統集成服務 8、雲計算數據中心是什么?

A、 數據中心是雲計算的重要載體,為各種平台和應用提供運行支撐環境

B、 提供智能交通、智慧醫療、智能物流、智能電網等

C、 提供分布式計算、數據挖掘、統計分析等服務

D、 提供硬件、軟件、網絡等基礎設施

9、下列哪個不屬於物聯網的應用?

A、 智能物流

B、 智能安防

C、 環保監測

D、 數據采集

10、下列哪項不屬於大數據的發展歷程?

A、 成熟期

B、 萌芽期

C、 大規模應用期

D、 迷茫期

11、第三次信息化浪潮的標志是什么?

A、 個人計算機

B、 物聯網

C、 雲計算和大數據

D、 互聯網

12、信息科技為大數據時代提供哪些技術支撐?

 

A、 存儲設備容量不斷增加

B、 網絡帶寬不斷增加

C、 CPU 處理能力大幅提升

D、 數據量不斷增大

13、大數據具有哪些特點?

A、 數據的"大量化"

B、 數據的"快速化"

C、 數據的"多樣化"

D、 數據的"價值化"

14、下面哪個屬於大數據的應用領域?

A、 智能醫療研發

B、 監控身體情況

C、 實時掌握交通狀況

D、 金融交易

15、大數據的兩個核心技術是什么?

A、 分布式存儲

B、 數據處理與分析

C、 分布式處理

D、 數據存儲與管理

16、雲計算關鍵技術包括什么?

A、 分布式存儲

B、 虛擬化

C、 分布式計算

D、 多租戶

17、雲計算的服務模式和類型包括哪些?

A、 軟件即服務(SaaS)

B、 平台即服務(PaaS)

C、 基礎設施即服務(IaaS)

D、 數據即服務(DaaS)

18、物聯網主要由下列哪些部分組成的?

 

A、 應用層

B、 處理層

C、 感知層

D、 網絡層

19、物聯網的關鍵技術包括哪些?

A、 識別和感知技術

B、 網絡與通信技術

C、 數據挖掘與融合技術

D、 信息處理一體化技術

20、大數據對社會發展的影響有哪些?

A、 大數據成為一種新的決策方式

B、 大數據應用促進信息技術與各行業的深度融合

C、 大數據開發推動新技術和新應用的不斷涌現

D、 大數據使得數據科學家成為熱門職業

21、下列哪個不屬於 Hadoop 的特性?

A、 成本高

B、 高可靠性

C、 高容錯性

D、 運行在 Linux 平台上

22、Hadoop 框架中最核心的設計是什么?

A、 為海量數據提供存儲的 HDFS 和對數據進行計算的 MapReduce

B、 提供整個 HDFS 文件系統的 NameSpace(命名空間)管理、塊管理等所有服務

C、 Hadoop 不僅可以運行在企業內部的集群中,也可以運行在雲計算環境中

D、 Hadoop 被視為事實上的大數據處理標准

23、在一個基本的 Hadoop 集群中,DataNode 主要負責什么?

A、 存儲被拆分的數據塊

B、 協調數據計算任務

C、 負責協調集群中的數據存儲

D、 負責執行由 JobTracker 指派的任務 24、Hadoop 最初是由誰創建的?

 

A、 Doug Cutting

B、 Lucene

C、 Apache

D、 MapReduce

25、下列哪一個不屬於 Hadoop 的大數據層的功能?

A、 數據挖掘

B、 離線分析

C、 實時查詢

D、 BI 分析

26、在一個基本的 Hadoop 集群中,SecondaryNameNode 主要負責什么?

A、 幫助 NameNode 收集文件系統運行的狀態信息

B、 負責執行由 JobTracker 指派的任務

C、 協調數據計算任務

D、 負責協調集群中的數據存儲

27、下面哪一項不是 Hadoop 的特性?

A、 只支持少數幾種編程語言

B、 可擴展性高

C、 成本低

D、 能在 linux 上運行

28、下列哪個不是 Hadoop 在企業中的應用架構?

A、 網絡層

B、 訪問層

C、 大數據層

D、 數據源層

29、在 Hadoop 項目結構中,HDFS 指的是什么?

A、 分布式文件系統

B、 分布式並行編程模型

C、 資源管理和調度器

D、 Hadoop 上的數據倉庫

30、在 Hadoop 項目結構中,MapReduce 指的是什么?

 

A、 分布式並行編程模型

B、 流計算框架

C、 Hadoop 上的工作流管理系統

D、 提供分布式協調一致性服務 31、Hadoop 的特性包括哪些?

A、 高可擴展性

B、 支持多種編程語言

C、 成本低

D、 運行在 Linux 平台上

32、Hadoop 在企業中的應用架構包括哪幾層?

A、 訪問層

B、 大數據層

C、 數據源層

D、 網絡層

33、Hadoop 中,訪問層的功能是什么?

A、 數據分析

B、 數據實時查詢

C、 數據挖掘

D、 數據接收

34、MapReduce 的作業主要包括什么?

A、 從磁盤或從網絡讀取數據,即 IO 密集工作

B、 計算數據,即 CPU 密集工作

C、 針對不同的工作節點選擇合適硬件類型

D、 負責協調集群中的數據存儲

35、一個基本的 Hadoop 集群中的節點主要包括什么?

A、 DataNode:存儲被拆分的數據塊

B、 JobTracker:協調數據計算任務

C、 TaskTracker:負責執行由 JobTracker 指派的任務

D、 SecondaryNameNode:幫助 NameNode 收集文件系統運行的狀態信息 36、下列關於 Hadoop 的描述,哪些是正確的?

 

A、 為用戶提供了系統底層細節透明的分布式基礎架構

B、 具有很好的跨平台特性

C、 可以部署在廉價的計算機集群中

D、 被公認為行業大數據標准開源軟件 37、Hadoop 主要提供哪些技術服務?

A、 開發工具

B、 開源軟件

C、 商業化工具

D、 數據采集

38、Hadoop 集群的整體性能主要受到什么因素影響?

A、 CPU 性能

B、 內存

C、 網絡

D、 存儲容量

39、下列關於 Hadoop 的描述,哪些是錯誤的?

A、 為用戶提供了系統頂層分布式基礎架構

B、 具有較差的跨平台特性

C、 可以部署在廉價的計算機集群中

D、 被公認為行業大數據標准開源軟件

40、下列哪一項不屬於 Hadoop 的特性?

A、 較低可擴展性

B、 只支持 java 語言

C、 成本低

D、 運行在 Linux 平台上

41、分布式文件系統指的是什么?

A、 把文件分布存儲到多個計算機節點上,成千上萬的計算機節點構成計算機 集群

B、 用於在 Hadoop 與傳統數據庫之間進行數據傳遞

C、 一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸的系統

D、 一種高吞吐量的分布式發布訂閱消息系統,可以處理消費者規模的網站中 的所有動作流數據

 

42、下面哪一項不屬於計算機集群中的節點?

A、 源節點(SourceNode)

B、 主節點(Master Node)

C、 名稱結點(NameNode)

D、 節點(Slave Node)

43、在 HDFS 中,默認一個塊多大?

A、 64MB

B、 32MB

C、 128MB

D、 16MB

44、下列哪一項不屬於 HDFS 采用抽象的塊概念帶來的好處?

A、 強大的跨平台兼容性

B、 支持大規模文件存儲

C、 簡化系統設計

D、 適合數據備份

45、在 HDFS 中,NameNode 的主要功能是什么?

A、 存儲元數據

B、 存儲文件內容

C、 文件內存保存在磁盤中

D、 維護了 block id 到 datanode 本地文件的映射關系 46、下面對 FsImage 的描述,哪個是錯誤的?

A、 FsImage 文件沒有記錄文件包含哪些塊以及每個塊存儲在哪個數據節點

B、 FsImage 文件包含文件系統中所有目錄和文件 inode 的序列化形式

C、 FsImage 用於維護文件系統樹以及文件樹中所有的文件和文件夾的元數據

D、 FsImage 文件記錄了所有針對文件的創建、刪除、重命名等操作

47、下面對 SecondaryNameNode 第二名稱節點的描述,哪個是錯誤的?

A、 SecondaryNameNode 一般是並行運行在多台機器上

B、 它是用來保存名稱節點中對 HDFS 元數據信息的備份,並減少名稱節點重啟 的時間

C、 SecondaryNameNode 通過 HTTPGET 方式從 NameNode 上獲取到 FsImage 和 EditLog 文件,並下載到本地的相應目錄下

 

D、 SecondaryNameNode 是 HDFS 架構中的一個組成部分 48、HDFS 采用了什么模型?

A、 主從結構模型

B、 分層模式

C、 管道-過濾器模式

D、 點對點模式

49、在 Hadoop 項目結構中,HDFS 指的是什么?

A、 分布式文件系統

B、 流數據讀寫

C、 資源管理和調度器

D、 Hadoop 上的數據倉庫

50、下列關於 HDFS 的描述,哪個不正確?

A、 HDFS 采用具體的塊概念,具有支持大規模文件存儲、簡化系統設計

B、 HDFS 采用了主從(Master/Slave)結構模型

C、 HDFS 采用了冗余數據存儲,增強了數據可靠性

D、 HDFS 還采用了相應的數據存放、數據讀取和數據復制策略,來提升系統整 體讀寫響應性能

51、HDFS 要實現以下哪幾個目標?

A、 兼容廉價的硬件設備

B、 流數據讀寫

C、 大數據集

D、 復雜的文件模型

52、HDFS 特殊的設計,在實現上述優良特性的同時,也使得自身具有一些應用 局限性,主要包括以下哪幾個方面?

A、 不適合低延遲數據訪問

B、 無法高效存儲大量小文件

C、 不支持多用戶寫入及任意修改文件

D、 較差的跨平台兼容性

53、HDFS 采用抽象的塊概念可以帶來以下哪幾個明顯的好處?

A、 支持大規模文件存儲

B、 簡化系統設計

 

C、 適合數據備份

D、 支持中等規模文件存儲

54、在 HDFS 中,名稱節點(NameNode)主要保存了哪些核心的數據結構?

A、 FsImage

B、 EditLog

C、 Block

D、 DN8

55、數據節點(DataNode)的主要功能包括哪些?

A、 負責數據的存儲和讀取

B、 根據客戶端或者是名稱節點的調度來進行數據的存儲和檢索

C、 向名稱節點定期發送自己所存儲的塊的列表

D、 用來保存名稱節點中對 HDFS 元數據信息的備份,並減少名稱節點重啟的時 間

56、HDFS 的命名空間包含什么?

A、 目錄

B、 文件

C、 塊

D、 磁盤

57、下列對於客服端的描述,哪些是正確的?

A、 客戶端是用戶操作 HDFS 最常用的方式,HDFS 在部署時都提供了客戶端

B、 HDFS 客戶端是一個庫,暴露了 HDFS 文件系統接口

C、 嚴格來說,客戶端並不算是 HDFS 的一部分

D、 客戶端可以支持打開、讀取、寫入等常見的操作

58、HDFS 只設置唯一一個名稱節點,這樣做雖然大大簡化了系統設計,但也帶 來了哪些明顯的局限性?

A、 命名空間的限制

B、 性能的瓶頸

C、 隔離問題

D、 集群的可用性

59、HDFS 數據塊多副本存儲具備以下哪些有點?

A、 加快數據傳輸速度

 

B、 容易檢查數據錯誤

C、 保證數據可靠性

D、 適合多平台上運行

60、HDFS 具有較高的容錯性,設計了哪些相應的機制檢測數據錯誤和進行自動 恢復?

A、 名稱節點出錯

B、 數據節點出錯

C、 數據出錯

D、 數據源太大

61、下列哪個不屬於 NoSQL 數據庫的特點?

A、 靈活的可擴展性

B、 靈活的數據模型

C、 與雲計算緊密融合

D、 大型的數據庫

62、下面關於 NoSQL 和關系數據庫的簡單比較,哪個是錯誤的?

A、 RDBMS 有關系代數理論作為基礎,NoSQL 沒有統一的理論基礎

B、 NoSQL 很難實現橫向擴展,RDBMS 可以很容易通過添加更多設備來支持更大 規模的數據

C、 RDBMS 需要定義數據庫模式,嚴格遵守數據定義,NoSQL 不存在數據庫模 式,可以自由靈活定義並存儲各種不同類型的數據

D、 RDBMS 借助於索引機制可以實現快速查詢,很多 NoSQL 數據庫沒有面向復 雜查詢的索引

63、下列哪一項不屬於 NoSQL 的四大類型?

A、 文檔數據庫

B、 圖數據庫

C、 列族數據庫

D、 時間戳數據庫

64、下列關於鍵值數據庫的描述,哪一項是錯誤的?

A、 擴展性好,靈活性好

B、 大量寫操作時性能高

C、 無法存儲結構化信息

 

D、 條件查詢效率高

65、下列關於列族數據庫的描述,哪一項是錯誤的?

A、 查找速度慢,可擴展性差

B、 功能較少,大都不支持強事務一致性

C、 容易進行分布式擴展

D、 復雜性低

66、下列哪一項不屬於數據庫事務具有 ACID 四性?

A、 間斷性

B、 原子性

C、 一致性

D、 持久性

67、下面關於 MongoDB 說法,哪一項是正確的?

A、 具有較差的水平可擴展性

B、 設置個別屬性的索引來實現更快的排序

C、 提供了一個面向文檔存儲,操作復雜

D、 可以實現替換完成的文檔(數據)或者一些指定的數據字段 68、下列關於 MongoDB 數據類型的說法,哪一項是錯誤的?

A、 Code 用於存儲二進制數據

B、 Object 用於內嵌文檔

C、 Null 用於創建空值

D、 String 字符串,儲數據常用的數據類型

69、下列關於 NoSQL 與關系數據庫的比較,哪個說法是錯誤的?

A、 在一致性方面,RDBMS 強於 NoSQL

B、 在數據完整性方面,RDBMS 容易實現

C、 在擴展性方面,NoSQL 比較好

D、 在可用性方面,NoSQL 優於 RDBMS

70、關於文檔數據庫的說法,下列哪一項是錯誤的?

A、 數據是規則的

B、 性能好(高並發)

C、 缺乏統一的查詢語法

 

D、 復雜性低

71、關系數據庫已經無法滿足 Web2.0 的需求,主要表現在以下幾個方面?

A、 無法滿足海量數據的管理需求

B、 無法滿足數據高並發的需求

C、 無法滿足高可擴展性和高可用性的需求

D、 使用難度高

72、下列關於 MySQL 集群的描述,哪些是正確的?

A、 復雜性:部署、管理、配置很復雜

B、 數據庫復制:MySQL 主備之間采用復制方式,只能是異步復制

C、 擴容問題:如果系統壓力過大需要增加新的機器,這個過程涉及數據重新 划分

D、 動態數據遷移問題:如果某個數據庫組壓力過大,需要將其中部分數據遷 移出去

73、關系數據庫引以為傲的兩個關鍵特性(完善的事務機制和高效的查詢機 制),到了 Web2.0 時代卻成了雞肋,主要表現在以下哪幾個方面?

A、 Web2.0 網站系統通常不要求嚴格的數據庫事務

B、 Web2.0 網站系統基本上不用數據庫來存儲

C、 Web2.0 並不要求嚴格的讀寫實時性

D、 Web2.0 通常不包含大量復雜的 SQL 查詢

74、下面關於 NoSQL 與關系數據庫的比較,哪些是正確的?

A、 關系數據庫以完善的關系代數理論作為基礎,有嚴格的標准

B、 關系數據庫可擴展性較差,無法較好支持海量數據存儲

C、 NoSQL 可以支持超大規模數據存儲

D、 NoSQL 數據庫缺乏數學理論基礎,復雜查詢性能不高 75、下列關於文檔數據庫的描述,哪些是正確的?

A、 性能好(高並發),靈活性高

B、 具備統一的查詢語法

C、 文檔數據庫支持文檔間的事務

D、 復雜性低,數據結構靈活

76、下列關於圖形數據庫的描述,哪些是正確的?

A、 專門用於處理具有高度相互關聯關系的數據

 

B、 比較適合於社交網絡、模式識別、依賴分析、推薦系統以及路徑尋找等問 題

C、 靈活性高,支持復雜的圖形算法

D、 復雜性高,只能支持一定的數據規模 77、NoSQL 的三大基石?

A、 CAP

B、 最終一致性

C、 BASE

D、 DN8

78、關於 NoSQL 的三大基石之一的 CAP,下列哪些說法是正確的?

A、 一致性,是指任何一個讀操作總是能夠讀到之前完成的寫操作的結果量

B、 一個分布式系統可以同時滿足一致性、可用性和分區容忍性這三個需求

C、 可用性,是指快速獲取數據

D、 分區容忍性,是指當出現網絡分區的情況時(即系統中的一部分節點無法 和其他節點進行通信),分離的系統也能夠正常運行

79、當處理 CAP 的問題時,可以有哪幾個明顯的選擇?

A、 CA:也就是強調一致性(C)和可用性(A),放棄分區容忍性(P)

B、 CP:也就是強調一致性(C)和分區容忍性(P),放棄可用性(A)

C、 AP:也就是強調可用性(A)和分區容忍性(P),放棄一致性(C)

D、 CAP:也就是同時兼顧可用性(A)、分區容忍性(P)和一致性(C),當 時系統性能會下降很多

80、數據庫事務具有 ACID 四性,下面哪幾項屬於四性?

A、 原子性

B、 持久性

C、 間斷性

D、 一致性

81、下列哪個不屬於雲計算的優勢?

A、 按需服務

B、 隨時服務

C、 通用性

D、 價格不菲

 

82、下列關於雲數據庫的描述,哪個是錯誤的?

A、 雲數據庫是部署和虛擬化在雲計算環境中的數據庫

B、 雲數據庫是在雲計算的大背景下發展起來的一種新興的共享基礎架構的方 法

C、 雲數據庫價格不菲,維護費用極其昂貴

D、 雲數據庫具有高可擴展性、高可用性、采用多租形式和支持資源有效分發 等特點

83、下列哪一個不屬於雲數據庫產品?

A、 MySQL

B、 阿里雲 RDS

C、 Oracle Cloud

D、 百度雲數據庫

84、UMP 系統是構建在一個大的集群之上的,下列哪一項不屬於系統向用戶提 供的功能?

A、 讀寫分離

B、 分庫分表

C、 數據安全

D、 資源合並

85、下列關於 UMP 系統功能的說法,哪個是錯誤的?

A、 充分利用主從庫實現用戶讀寫操作的分離,實現負載均衡

B、 UMP 系統實現了對於用戶透明的讀寫分離功能

C、 UMP 采用的兩種資源隔離方式(用 Cgroup 限制 MySQL 進程資源和在 Proxy 服務器端限制 QPS)

D、 UMP 系統只設計了一種機制來保證數據安全 86、下列關於阿里雲 RDS 的說法,哪個是錯誤的?

A、 RDS 是阿里雲提供的關系型數據庫服務

B、 RDS 由專業數據庫管理團隊維護

C、 RDS 具有安全穩定、數據可靠、自動備份

D、 RDS 實例,是用戶購買 RDS 服務的基本單位。在實例中,用戶只能創建一 個數據庫

87、下面哪一項不是雲數據庫的特性?

A、 動態可擴展

 

B、 高成本

C、 易用性

D、 大規模並行處理

88、下列哪個不是 UMP 系統中的角色?

A、 Controller 服務器

B、 Proxy 服務器

C、 愚公系統

D、 數據處理服務器

89、關於 UMP 系統架構依賴的開源組件 Mnesia,說法錯誤的是哪一項?

A、 Mnesia 是一個分布式數據庫管理系統

B、 Mnesia 的數據庫模式(schema)只能在未運行前靜態重配置

C、 Mnesia 的這些特性,使其在開發雲數據庫時被用來提供分布式數據庫服務

D、 Mnesia 支持事務,支持透明的數據分片

90、關於 UMP 系統架構的 Controller 服務器,說法錯誤的是哪一項?

A、 Controller 服務器向 UMP 集群提供各種管理服務

B、 Controller 服務器上運行了一組 Mnesia 分布式數據庫服務

C、 當其它服務器組件需要獲取用戶數據時,不可以向 Controller 服務器發送 請求獲取數據

D、 為了避免單點故障,保證系統的高可用性,UMP 系統中部署了多台 Controller 服務器

91、雲數據庫具有以下哪些特性?

A、 動態可擴展

B、 高可用性

C、 免維護

D、 安全

92、下列關於雲數據庫的描述,哪些是正確的?

A、 Amazon 是雲數據庫市場的先行者

B、 Google Cloud SQL 是谷歌公司推出的基於 MySQL 的雲數據庫

C、 從數據模型的角度來說,雲數據庫並非一種全新的數據庫技術

D、 雲數據庫並沒有專屬於自己的數據模型

93、UMP 系統架構設計遵循了以下哪些原則?

 

A、 保持單一的系統對外入口,並且為系統內部維護單一的資源池

B、 消除單點故障,保證服務的高可用性

C、 保證系統具有良好的可伸縮,能夠動態地增加、刪減計算與存儲節點

D、 保證分配給用戶的資源也是彈性可伸縮的

94、UMP 系統架構依賴的哪些開源組件?

A、 Mnesia

B、 LVS

C、 RabbitMQ

D、 ZooKeeper

95、一個基本的 Hadoop 集群中的節點主要包括什么?

A、 DataNode:存儲被拆分的數據塊

B、 JobTracker:協調數據計算任務

C、 TaskTracker:負責執行由 JobTracker 指派的任務

D、 SecondaryNameNode:幫助 NameNode 收集文件系統運行的狀態信息 96、下列關於 UMP 系統架構的描述,哪些是正確的?

A、 信息統計服務器定期將采集到的用戶的連接數

B、 Web 控制台向系統人員提供系統管理界面

C、 LVS(Linux Virtual Server)即 Linux 虛擬服務器

D、 UMP 系統借助於 LVS 來實現集群內部的負載均衡

97、為什么說雲數據庫是個性化數據存儲需求的理想選擇?

A、 雲數據庫可以滿足大企業的海量數據存儲需求

B、 雲數據庫可以滿足中小企業的低成本數據存儲需求

C、 雲數據庫可以滿足企業動態變化的數據存儲需求

D、 前期零投入、后期免維護的數據庫服務,可以很好滿足它們的需求 98、下列關於雲數據庫與其他數據庫的關系,哪些是正確的?

A、 從數據模型的角度來說,雲數據庫並非一種全新的數據庫技術

B、 雲數據庫並沒有專屬於自己的數據模型,雲數據庫所采用的數據模型可以 是關系數據庫所使用的關系模型

C、 同一個公司只能提供采用不同數據模型的單個雲數據庫服務

D、 許多公司在開發雲數據庫時,后端數據庫都是直接使用現有的各種關系數 據庫或 NoSQL 數據庫產品

 

99、下列關於 Amazon 的雲數據庫產品,說法正確的哪幾項?

A、 Amazon RDS:雲中的關系數據庫

B、 Amazon SimpleDB:雲中的鍵值數據庫

C、 Amazon DynamoDB:雲中的數據倉庫

D、 Amazon ElastiCache:雲中的分布式內存緩存

100、Microsoft 的雲數據庫產品 SQL Azure 具有以下哪些特性?

A、 屬於關系型數據庫:支持使用 TSQL 來管理、創建和操作雲數據庫

B、 支持存儲過程:它的數據類型、存儲過程和傳統的 SQL Server 具有很大的 相似性

C、 支持大量數據類型

D、 支持雲中的事務:支持局部事務,但是不支持分布式事務 101、下列傳統並行計算框架,說法錯誤的是哪一項?

A、 刀片服務器、高速網、SAN,價格貴,擴展性差上

B、 共享式(共享內存/共享存儲),容錯性好

C、 what-how,難

D、 實時、細粒度計算、計算密集型

102、下列關於 MapReduce 模型的描述,錯誤的是哪一項?

A、 MapReduce 采用" 分而治之"策略

B、 MapReduce 設計的一個理念就是" 計算向數據靠攏"

C、 MapReduce 框架采用了 Master/Slave 架構

D、 MapReduce 應用程序只用 Java 來寫

103、MapReduce 的體系結構在,JobTracker 是主要任務是什么?

A、 負責資源監控和作業調度,監控所有 TaskTracker 與 Job 的健康狀況

B、 使用"slot"等量划分本節點上的資源量(CPU、內存等)

C、 會周期性地通過"心跳"將本節點上資源的使用情況和任務的運行進度匯 報給 TaskTracker

D、 會跟蹤任務的執行進度、資源使用量等信息,並將這些信息告訴任務

(Task)

104、下列關於 MapReduce 工作流程,哪個描述是正確的?

A、 所有的數據交換都是通過 MapReduce 框架自身去實現的

B、 不同的 Map 任務之間會進行通信

 

C、 不同的 Reduce 任務之間可以發生信息交換

D、 用戶可以顯式地從一台機器向另一台機器發送消息 105、下列關於 MapReduce 的說法,哪個描述是錯誤的?

A、 MapReduce 具有廣泛的應用,比如關系代數運算、分組與聚合運算等

B、 MapReduce 將復雜的、運行於大規模集群上的並行計算過程高度地抽象到 了兩個函數

C、 編程人員在不會分布式並行編程的情況下,也可以很容易將自己的程序運 行在分布式系統上,完成海量數據集的計算

D、 不同的 Map 任務之間可以進行通信

106、下列關於 Map 和 Reduce 函數的描述,哪個是錯誤的?

A、 Map 將小數據集進一步解析成一批<key,value>對,輸入 Map 函數中進行處 理

B、 Map 每一個輸入的<k 1 ,v 1 >會輸出一批<k 2 ,v 2 >。<k 2 ,v 2 >是計 算的中間結果

C、 Reduce 輸入的中間結果<k 2 ,List(v 2 )>中的 List(v 2 )表示是一批屬 於不同一個 k 2 的 value

D、 Reduce 輸入的中間結果<k 2 ,List(v 2 )>中的 List(v 2 )表示是一批屬 於同一個 k 2 的 value

107、下面哪一項不是 MapReduce 體系結構主要部分?

A、 Client

B、 JobTracker

C、 TaskTracker 以及 Task

D、 Job

108、關於 MapReduce 的體系結構的描述,下列說法錯誤的是?

A、 用戶可通過 Client 提供的一些接口查看作業運行狀態

B、 用戶編寫的 MapReduce 程序通過 Client 提交到 JobTracker 端

C、 JobTracker 負責資源監控和作業調度

D、 JobTracker 會跟蹤任務的執行進度、資源使用量等信息,並將這些信息告 訴任務調度器(TaskScheduler)

109、關於 MapReduce 的體系結構的描述,下列說法錯誤的是?

A、 Task 分為 Map Task 和 Reduce Task 兩種,分別由 JobTracker 和 TaskTracker 啟動

 

B、 slot 分為 Map slot 和 Reduce slot 兩種,分別供 MapTask 和 Reduce Task 使用

C、 TaskTracker 使用"slot"等量划分本節點上的資源量(CPU、內存等)

D、 TaskTracker 會周期性接收 JobTracker 發送過來的命令並執行相應的操 作(如啟動新任務、殺死任務等)

110、下列說法有誤的是?

A、 Hadoop MapReduce 是 MapReduce 的開源實現,后者比前者使用門檻低很多

B、 MapReduce 非共享式,容錯性好

C、 MapReduce 批處理、實時、數據疏散型

D、 MapReduce 采用" 分而治之"策略

111、MapReduce 相較於傳統的並行計算框架有什么優勢?

A、 非共享式,容錯性好

B、 普通 PC 機,便宜,擴展性好

C、 what,簡單

D、 批處理、非實時、數據密集型

112、MapReduce 體系結構主要由以下那幾部分構成?

A、 Client

B、 JobTracker

C、 TaskTracker

D、 Task

113、下列關於 MapReduce 的體系結構的描述,說法正確的有?

A、 用戶編寫的 MapReduce 程序通過 Client 提交到 JobTracker 端

B、 JobTracker 負責資源監控和作業調度

C、 TaskTracker 監控所有 TaskTracker 與 Job 的健康狀況

D、 TaskTracker 使用"slot"等量划分本節點上的資源量(CPU、內存等) 114、MapReduce 的作業主要包括什么?

A、 從磁盤或從網絡讀取數據,即 IO 密集工作

B、 計算數據,即 CPU 密集工作

C、 針對不同的工作節點選擇合適硬件類型

D、 負責協調集群中的數據存儲

 

115、對於 MapReduce 而言,其處理單位是 split。split 是一個邏輯概念, 它包含哪些元數據信息?

A、 數據起始位置

B、 數據長度

C、 數據所在節點

D、 數據大小

116、下列關於 Map 端的 Shuffle 的描述,哪些是正確的?

A、 MapReduce 默認 1000MB 緩存

B、 多個溢寫文件歸並成一個或多個大文件,文件中的鍵值對是排序的

C、 當數據很少時,不需要溢寫到磁盤,直接在緩存中歸並,然后輸出給 Reduce

D、 每個 Map 任務分配多個緩存,使得任務運行更有效率 117、MapReduce 的具體應用包括哪些?

A、 關系代數運算(選擇、投影、並、交、差、連接)

B、 分組與聚合運算

C、 矩陣-向量乘法

D、 矩陣乘法

118、MapReduce 執行的全過程包括以下哪幾個主要階段?

A、 從分布式文件系統讀入數據

B、 執行 Map 任務輸出中間結果

C、 通過 Shuffle 階段把中間結果分區排序整理后發送給 Reduce 任務

D、 執行 Reduce 任務得到最終結果並寫入分布式文件系統

119、下列關於分布式並行編程的描述,哪些是正確的?

A、 "摩爾定律", CPU 性能大約每隔 18 個月翻一番

B、 分布式程序運行在大規模計算機集群上

C、 谷歌公司最先提出了分布式並行編程模型 MapReduce

D、 MapReduce 是 Hadoop 的開源實現

120、下列說法正確的是?

A、 MapReduce 體系結構主要由四個部分組成,分別是:Client、 JobTracker、TaskTracker 以及 Task

B、 Task 分為 Map Task 和 Reduce Task 兩種,均由 TaskTracker 啟動

 

C、 在 MapReduce 工作流程中,所有的數據交換都是通過 MapReduce 框架自身 去實現的

D、 在 MapReduce 工作流程中,用戶不能顯式地從一台機器向另一台機器發送 消息

121、Hadoop1.0 的核心組件(僅指 MapReduce 和 HDFS,不包括 Hadoop 生態系 統內的 Pig、Hive、HBase 等其他組件),下列哪項是它的不足?

A、 抽象層次高

B、 表達能力有限,抽象層次低,需人工編碼

C、 價格昂貴

D、 可維護性低

122、下面哪個選項不屬於 Hadoop1.0 的問題?

A、 單一名稱節點,存在單點失效問題

B、 單一命名空間,無法實現資源隔離

C、 資源管理效率低

D、 很難上手

123、下列哪項是 Hadoop 生態系統中 Spark 的功能?

A、 處理大規模數據的腳本語言

B、 工作流和協作服務引擎,協調 Hadoop 上運行的不同任務

C、 支持 DAG 作業的計算框架

D、 基於內存的分布式並行編程框架,具有較高的實時性,並且較好支持迭代 計算

124、在 Hadoop 生態系統中,Kafka 主要解決 Hadoop 中存在哪些的問題?

A、 Hadoop 生態系統中各個組件和其他產品之間缺乏統一的、高效的數據交換 中介

B、 不同的 MapReduce 任務之間存在重復操作,降低了效率

C、 延遲高,而且不適合執行迭代計算

D、 抽象層次低,需要手工編寫大量代碼

125、下列哪一個不屬於 HDFS1.0 中存在的問題?

A、 不可以水平擴展

B、 多點故障問題

C、 HDFS HA 是熱備份,提供高可用性,但是無法解決可擴展性、系統性能和 隔離性

 

D、 系統整體性能受限於單個名稱節點的吞吐量

126、關於 HDFS Federation 的設計的描述,哪個是錯誤的?

A、 屬於不同命名空間的塊可以構成同一個"塊池"

B、 HDFS Federation 中,所有名稱節點會共享底層的數據節點存儲資源,數 據節點向所有名稱節點匯報

C、 設計了多個相互獨立的名稱節點

D、 HDFS 的命名服務能夠水平擴展

127、下列關於.HDFS Federation 的描述,錯誤的是?

A、 不存在單點故障

B、 JobTracker"大包大攬"導致任務過重

C、 容易出現內存溢出(分配資源只考慮 MapReduce 任務數,不考慮 CPU、內 存)

D、 資源划分不合理(強制划分為 slot ,包括 Map slot 和 Reduce slot) 128、下列哪一項不屬於 MapReduce1.0 的缺陷?

A、 數據中心是雲計算的重要載體,為各種平台和應用提供運行支撐環境

B、 提供智能交通、智慧醫療、智能物流、智能電網等

C、 提供分布式計算、數據挖掘、統計分析等服務

D、 提供硬件、軟件、網絡等基礎設施

129、下列哪個不屬於 YARN 體系結構中 ResourceManager 的功能?

A、 處理客戶端請求

B、 監控 NodeManager

C、 資源分配與調度

D、 處理來自 ApplicationMaster 的命令

130、下列哪個不屬於 YARN 體系結構中 ApplicationMaster 的功能?

A、 任務調度、監控與容錯

B、 為應用程序申請資源

C、 將申請的資源分配給內部任務

D、 處理來自 ResourceManger 的命令

131、下列選項中,哪些屬於 Hadoop1.0 的核心組件的不足之處?

A、 實時性差(適合批處理,不支持實時交互式)

B、 資源浪費(Map 和 Reduce 分兩階段執行)

 

C、 執行迭代操作效率低

D、 難以看到程序整體邏輯

132、Hadoop 的優化與發展主要體現在哪幾個方面?

A、 Hadoop 自身核心組件 MapReduce 的架構設計改進

B、 Hadoop 自身核心組件 HDFS 的架構設計改進

C、 Hadoop 生態系統其它組件的不斷豐富

D、 Hadoop 生態系統減少不必要的組件,整合系統 133、下列哪些屬於 Hadoop2.0 的改進?

A、 設計了 HDFS HA

B、 提供名稱節點熱備機制

C、 設計了 HDFS Federation,管理多個命名空間

D、 設計了新的資源管理框架 YARN

134、下面哪個屬於不斷完善的 Hadoop 生態系統中的組件?

A、 Pig

B、 Spark

C、 Kafka

D、 DN8

135、HDFS1.0 主要存在哪些問題?

A、 單點故障問題

B、 不可以水平擴展

C、 單個名稱節點難以提供不同程序之間的隔離性

D、 系統整體性能受限於單個名稱節點的吞吐量

136、HDFS Federation 相對於 HDFS1.0 的優勢主要體現在哪里?

A、 能夠解決單點故障問題

B、 HDFS 集群擴展性

C、 性能更高效

D、 良好的隔離性

137、JobTracker 主要包括哪三大功能?

A、 資源管理

B、 任務調度

 

C、 任務監控

D、 數據即服務

138、YARN 體系結構主要包括哪三部分?

A、 ResourceManager

B、 NodeManager

C、 ApplicationMaster

D、 DataManager

139、在 YARN 體系結構中,ApplicationMaster 主要功能包括哪些?

A、 當用戶作業提交時,ApplicationMaster 與 ResourceManager 協商獲取資 源,ResourceManager 會以容器的形式為 ApplicationMaster 分配資源

B、 把獲得的資源進一步分配給內部的各個任務(Map 任務或 Reduce 任務), 實現資源的"二次分配"

C、 定時向 ResourceManager 發送"心跳"消息,報告資源的使用情況和應用 的進度信息

D、 向 ResourceManager 匯報作業的資源使用情況和每個容器的運行狀態 140、YARN 的目標就是實現"一個集群多個框架",為什么?

A、 一個企業當中同時存在各種不同的業務應用場景,需要采用不同的計算框 架

B、 為了避免不同類型應用之間互相干擾,企業就需要把內部的服務器拆分成 多個集群,分別安裝運行不同的計算框架,即"一個框架一個集群"

C、 這些產品通常來自不同的開發團隊,具有各自的資源調度管理機制

D、 解決單點故障

141、下列關於 Spark 的描述,錯誤的是哪一項?

A、 Spark 最初由美國加州伯克利大學(UCBerkeley)的 AMP 實驗室於 2009 年 開發

B、 Spark 在 2014 年打破了 Hadoop 保持的基准排序紀錄.

C、 Spark 用十分之一的計算資源,獲得了比 Hadoop 快 3 倍的速度

D、 Spark 運行模式單一

142、下面關於 Spark 的說法,錯誤的是哪一項?

A、 使用 DAG 執行引擎以支持循環數據流與內存計算

B、 可運行於獨立的集群模式中,可運行於 Hadoop 中,也可運行於 Amazon EC2 等雲環境中

 

C、 支持使用 Scala、Java、Python 和 R 語言進行編程,但是不可以通過 Spark Shell 進行交互式編程

D、 Spark 提供了內存計算,可將中間結果放到內存中,對於迭代計算效率更 高

143、下列關於 Scala 特性的描述,錯誤的是哪一項?

A、 Scala 語法復雜,但是能提供優雅的 API 計算

B、 Scala 具備強大的並發性,支持函數式編程,可以更好地支持分布式系統

C、 Scala 兼容 Java,運行速度快,且能融合到 Hadoop 生態圈中

D、 Scala 是 Spark 的主要編程語言 144、下列說法哪項有誤?

A、 相對於 Spark 來說,使用 Hadoop 進行迭代計算非常耗資源

B、 Spark 將數據載入內存后,之后的迭代計算都可以直接使用內存中的中間 結果作運算,避免了從磁盤中頻繁讀取數據

C、 Hadoop 的設計遵循"一個軟件棧滿足不同應用場景"的理念

D、 Spark 可以部署在資源管理器 YARN 之上,提供一站式的大數據解決方案 145、在 Spark 生態系統組件的應用場景中,下列哪項說法是錯誤的?

A、 Spark 應用在復雜的批量數據處理

B、 Spark SQL 是基於歷史數據的交互式查詢

C、 Spark Streaming 是基於歷史數據的數據挖掘

D、 GraphX 是圖結構數據的處 146、下列說法錯誤的是?

A、 RDD(Resillient Distributed Dataset)是運行在工作節點

(WorkerNode)的一個進程,負責運行 Task

B、 Application 是用戶編寫的 Spark 應用程序

C、 一個 Job 包含多個 RDD 及作用於相應 RDD 上的各種操作

D、 Directed Acyclic Graph 反映 RDD 之間的依賴關系 147、下列關於 RDD 說法,描述有誤的是?

A、 一個 RDD 就是一個分布式對象集合,本質上是一個只讀的分區記錄集合

B、 每個 RDD 可分成多個分區,每個分區就是一個數據集片段

C、 RDD 是可以直接修改的

D、 RDD 提供了一種高度受限的共享內存模型

 

148、下列哪一項不屬於 Spark 架構的優點?

A、 實現一鍵式安裝和配置、線程級別的任務監控和告警

B、 降低硬件集群、軟件維護、任務監控和應用開發的難度

C、 便於做成統一的硬件、計算平台資源池

D、 不用負載應用混搭,集群利用率高

149、Spark 生態系統組件 Spark Streaming 的應用場景是?

A、 基於歷史數據的數據挖掘

B、 圖結構數據的處理

C、 基於歷史數據的交互式查詢

D、 基於實時數據流的數據處理

150、Spark 生態系統組件 MLlib 的應用場景是?

A、 圖結構數據的處理

B、 基於歷史數據的交互式查詢

C、 復雜的批量數據處理

D、 基於歷史數據的數據挖掘

151、Spark 具有以下哪幾個主要特點?

A、 運行速度快

B、 容易使用

C、 通用性

D、 運行模式單一

152、Scala 具有以下哪幾個主要特點?

A、 Scala 的優勢是提供了 REPL(Read-Eval-Print Loop,交互式解釋器), 提高程序開發效率

B、 Scala 兼容 Java,運行速度快,且能融合到 Hadoop 生態圈中

C、 Scala 具備強大的並發性,支持函數式編程

D、 Scala 可以更好地支持分布式系統 153、下列哪些選項屬於 Hadoop 的缺點?

A、 表達能力有限

B、 磁盤 IO 開銷大

C、 延遲高

 

D、 在前一個任務執行完成之前,其他任務就無法開始,難以勝任復雜、多階 段的計算任務

154、下列說法中,哪些選項描述正確?

A、 Spark 在借鑒 Hadoop MapReduce 優點的同時,很好地解決了 MapReduce 所 面臨的問題

B、 Spark 的計算模式也屬於 MapReduce,但不局限於 Map 和 Reduce 操作

C、 Hadoop MapReduce 編程模型比 Spark 更靈活

D、 Hadoop MapReduce 提供了內存計算,可將中間結果放到內存中,對於迭代 運算效率更高

155、在實際應用中,大數據處理主要包括以下哪三個類型?

A、 復雜的批量數據處理:通常時間跨度在數十分鍾到數小時之間

B、 基於歷史數據的交互式查詢:通常時間跨度在數十秒到數分鍾之間

C、 基於實時數據流的數據處理:通常時間跨度在數十秒到數分鍾之間

D、 基於實時數據流的數據處理:通常時間跨度在數百毫秒到數秒之間 156、在實際應用中,大數據處理難免會帶來哪些問題?

A、 不同場景之間輸入輸出數據無法做到無縫共享,通常需要進行數據格式的 轉換

B、 不同的軟件需要不同的開發和維護團隊

C、 需要較高的使用成本

D、 比較難以對同一個集群中的各個系統進行統一的資源協調和分配

157、與 Hadoop MapReduce 計算框架相比,Spark 所采用的 Executor 具有哪些 優點?

A、 利用多線程來執行具體的任務,減少任務的啟動開銷

B、 Executor 中有一個 BlockManager 存儲模塊,有效減少 IO 開銷

C、 提供了一種高度受限的共享內存模型

D、 不同場景之間輸入輸出數據能做到無縫共享 158、Spark 運行架構具有以下哪些特點?

A、 每個 Application 都有自己專屬的 Executor 進程,並且該進程在 Application 運行期間一直駐留

B、 Executor 進程以多線程的方式運行 Task

C、 Spark 運行過程與資源管理器無關,只要能夠獲取 Executor 進程並保持通 信即可

 

D、 Task 采用了數據本地性和推測執行等優化機制

159、Spark 采用 RDD 以后能夠實現高效計算的原因主要在於?

A、 高效的容錯性

B、 中間結果持久化到內存,數據在內存中的多個

C、 存放的數據可以是 Java 對象,避免了不必要的對象序列化和反序列化

D、 現有容錯機制:數據復制或者記錄日志

160、Spark 支持三種不同類型的部署方式,包括?

A、 Standalone(類似於 MapReduce1.0,slot 為資源分配單位)

B、 Spark on Mesos(和 Spark 有血緣關系,更好支持 Mesos)

C、 Spark on YARN

D、 Spark on HDFS

161、下列關於流計算的說法,哪項是錯誤的?

A、 實時獲取來自不同數據源的海量數據,經過實時分析處理,獲得有價值的 信息

B、 流計算秉承一個基本理念,即 數據的價值隨着時間的流逝而降低

C、 對於一個流計算系統來說,它應該支持 TB 級甚至是 PB 級的數據規模

D、 流計算只需要保證較低的延遲時間,即只達到秒級別即可處理一切問題 162、下列關於數據處理流程,說法有誤的是?

A、 在傳統的數據處理流程中,存儲的數據是舊的

B、 在傳統的數據處理流程中,需要用戶主動發出查詢來獲取結果

C、 傳統的數據處理流程,需要先采集數據並存儲在關系數據庫等數據管理系 統中

D、 流計算的處理流程一般包含三個階段:數據實時采集、數據批量計算、實 時查詢服務

163、下列哪項不屬於流計算的處理流程的三個階段?

A、 數據實時采集

B、 數據批量采集

C、 數據實時計算

D、 實時查詢服務

164、下列哪一項不屬於 Storm 的特點?

A、 支持各種編程語言:Storm 支持使用各種編程語言來定義任務

 

B、 容錯性:Storm 需要人工進行故障節點的重啟、任務的重新分配

C、 可擴展性:Storm 的並行特性使其可以運行在分布式集群中

D、 免費、開源:Storm 是一款開源框架,可以免費使用 165、下列關於 Storm 設計思想,描述有誤的是?

A、 Storm 將 Streams 的狀態轉換過程抽象為 Spout

B、 Storm 認為每個 Stream 都有一個源頭,並把這個源頭抽象為 Spout

C、 Storm 將 Spouts 和 Bolts 組成的網絡抽象成 Topology

D、 Topology 里面的每個處理組件(Spout 或 Bolt)都包含處理邏輯, 而組 件之間的連接則表示數據流動的方向

166、下列關於 Storm 和 Hadoop 架構組件功能對應關系,哪個是錯誤的?

A、 Hadoop Job 對應 Storm Topology

B、 Hadoop TaskTracker 對應 Storm Supervisor

C、 Hadoop JobTracker 對應 Storm Spout

D、 Hadoop Reduce 對應 Storm Bolt 167、下面哪一項不屬於 Samza 的系統架構?

A、 流數據層(Kafka)

B、 執行層(YARN)

C、 處理層(Samza API)

D、 數據采集層(Scribe)

168、下列哪個說法是錯誤的?

A、 從編程的靈活性來講,Storm 是比較理想的選擇,它使用 Apache Thrift, 可以用任何編程語言來編寫拓撲結構(Topology)

B、 當有大量的狀態需要處理時,比如每個分區都有數十億個元組,則可以選 擇 Storm 和 Spark Streaming

C、 Spark Streaming 無法實現毫秒級的流計算

D、 在 Spark 上可以統一部署 Spark SQL,Spark Streaming、MLlib,GraphX 等組件,提供便捷的一體化編程模型

169、下列關於 Storm 的描述,有誤的是?

A、 Storm 將流數據 Stream 描述成一個有限的 Tuple 序列

B、 Storm 保證每個消息都能完整處理

C、 Storm 認為每個 Stream 都有一個源頭,並把這個源頭抽象為 Spout

 

D、 Bolt 可以執行過濾、函數操作、Join、操作數據庫等任何操作 170、下列哪個關於 Stream Groupings 的描述,有誤的是?

A、 FieldsGrouping:廣播發送,每一個 Task 都會收到所有的 Tuple

B、 GlobalGrouping:全局分組,所有的 Tuple 都發送到同一個 Task 中

C、 NonGrouping:不分組,和 ShuffleGrouping 類似,當前 Task 的執行會和 它的被訂閱者在同一個線程中執行

D、 DirectGrouping:直接分組,直接指定由某個 Task 來執行 Tuple 的處理 171、流數據具有以下哪些特征?

A、 數據快速持續到達,潛在大小也許是無窮無盡的

B、 數據來源眾多,格式復雜

C、 注重數據的整體價值,不過分關注個別數據

D、 系統可以控制將要處理的新到達的數據元素的順序 172、下列關於批量計算和實時計算的說法,正確的有?

A、 批量計算:充裕時間處理靜態數據,如 Hadoop

B、 靜態數據不適合采用批量計算,因為它不適合用傳統的關系模型建模

C、 流數據必須采用實時計算

D、 流數據的響應時間為秒級

173、對於一個流計算系統來說,它應達到以下哪些需求?

A、 高性能:處理大數據的基本要求,如每秒處理幾十萬條數據

B、 實時性:保證較低的延遲時間,達到秒級別,甚至是毫秒級別

C、 分布式:支持大數據的基本架構,必須能夠平滑擴展

D、 可靠性:能可靠地處理流數據

174、下列關於流計算與 Hadoop 的說法,正確的有?

A、 Hadoop 擅長批處理,不適合流計算

B、 MapReduce 是專門面向靜態數據的批量處理的

C、 Hadoop 設計的初衷是面向大規模數據的批量處理

D、 MapReduce 不適合用於處理持續到達的動態數據

175、下列關於流處理系統與傳統的數據處理系統的描述,正確的有?

A、 流處理系統處理的是實時的數據,而傳統的數據處理系統處理的是預先存 儲好的靜態數據

 

B、 用戶通過流處理系統獲取的是實時結果,而通過傳統的數據處理系統,獲 取的是過去某一時刻的結果

C、 流處理系統無需用戶主動發出查詢,實時查詢服務可以主動將結果推送給 用戶

D、 傳統的數據處理系統系統無需用戶主動發出查詢,批量查詢服務可以主動 將結果推送給用戶

176、Storm 具有以下哪些特點?

A、 整合性:Storm 可方便地與隊列系統和數據庫系統進行整合

B、 簡易的 API:Storm 的 API 在使用上即簡單又方便

C、 容錯性:Storm 可自動進行故障節點的重啟、任務的重新分配

D、 可擴展性:Storm 的並行特性使其可以運行在分布式集群中 177、目前,Storm 中的 Stream Groupings 有如下哪幾種方式?

A、 AllGrouping:廣播發送,每一個 Task 都會收到所有的 Tuple

B、 GlobalGrouping:全局分組,所有的 Tuple 都發送到同一個 Task 中

C、 FieldsGrouping:按照字段分組,保證相同字段的 Tuple 分配到同一個 Task 中

D、 DirectGrouping:隨機分組,隨機分發 Stream 中的 Tuple,保證每個 Bolt 的 Task 接收 Tuple 數量大致一致

178、下列關於 Storm 框架,描述正確的有?

A、 worker:每個 worker 進程都屬於一個特定的 Topology

B、 executor:executor 是產生於 worker 進程內部的線程

C、 task:實際的數據處理由 task 完成

D、 在 Topology 的生命周期中,每個組件的 task 數目是不會發生變化的,而 executor 的數目卻不一定

179、下列關於 Spark Streaming 與 Storm 的描述,哪些是正確的的?

A、 Spark Streaming 無法實現毫秒級的流計算

B、 Storm 可以實現毫秒級響應件

C、 Storm 的低延遲執行引擎(100ms+)可以用於實時計算

D、 Spark Streaming 采用的小批量處理的方式使得它可以同時兼容批量和實 時數據處理的邏輯和算法

180、下列關於 Samza 的描述,哪些是正確的?

A、 一個作業(Job)是對一組輸入流進行處理轉化成輸出流的程序

 

B、 Samza 的流數據單位既不是 Storm 中的元組,也不是 Spark Streaming 中 的 DStream,而是一條條消息

C、 一個作業會被進一步分割成多個任務(Task)來執行

D、 分區之間沒有定義順序,從而允許每一個任務獨立執行

181、下列關於數據可視化的描述,哪個是錯誤的?

A、 數據可視化是指將大型數據集中的數據以圖形圖像形式表示

B、 利用數據分析和開發工具發現其中未知信息的處理過程

C、 數據可視化技術的基本思想是將數據庫中每一個數據項作為單個圖元素表 示

D、 將數據的各個屬性值以一維數據的形式表示

182、學習 D3 可視化庫需要的一些基礎知識,下列說法錯誤的是?

A、 HTML:文檔對象模型,用於修改文檔的內容和結構

B、 CSS:層疊樣式表,用於設定網頁的樣式

C、 SVG:可縮放矢量圖形,用於繪制可視化的圖形

D、 JavaScript:一種直譯式腳本語言,用於設定網頁的行為 183、下列選項中,哪些不屬於 SVG 標簽的視覺元素?

A、 矩形

B、 圓形

C、 線條

D、 圖片

184、下列哪個不屬於可視化工具?

A、 Google Chart API

B、 D3

C、 Visual.ly

D、 Spark

185、下列說法錯誤的是?

A、 大數據魔鏡是一款優秀的國產數據分析軟件,可以讓用戶真正理解探索分 析數據

B、 Tableau 是桌面系統中最簡單的商業智能工具軟件,是一個用於網頁作 圖、生成互動圖形的 JavaScript 函數庫

C、 Google Fusion Tables 讓一般使用者也可以輕松制作出專業的統計地圖

 

D、 Modest Maps 是一個小型、可擴展、交互式的免費庫,提供了一套查看衛 星地圖的 API

186、下面關於 Timetoast 的描述,哪個是錯誤的?

A、 Timetoast 是在線創作基於時間軸事件記載服務的網站

B、 提供個性化的時間線服務

C、 Timetoast 基於 flash 平台,可以在類似 flash 時間軸上任意加入事件

D、 Timetoast 是一個社區類型的時間軸網站

187、HBase 實際應用中的性能優化方法不包括下面哪一項?

A、 創建表的時候,可以通過 HColumnDescriptor.setInMemory(true)將表放 到 Region 服務器的緩存中,保證在讀取的時候被 cache 命中

B、 創建表的時候,可以通過 HColumnDescriptor.setMaxVersions(int maxVersions)設置表中數據的最大版本,如果只需要保存最新版本的數據,那 么可以設置 setMaxVersions(1)

C、 創建表的時候,可以通過 HColumnDescriptor.setTimeToLive(int timeToLive)設置表中數據的存儲生命期

D、 如果最近寫入 HBase 表中的數據是最可能被訪問的,可以考慮將時間戳作 為行鍵的一部分

188、下列關於可視化工具中高級分析工具的說法,錯誤的是?

A、 R 是屬於 GNU 系統的一個自由、免費、源代碼開放的軟件

B、 Weka 主要用於社交圖譜數據可視化分析,可以生成非常酷炫的可視化圖形

C、 Gephi 主要用於社交圖譜數據可視化分析,可以生成非常酷炫的可視化圖 形

D、 R 通常用於大數據集的統計與分析

189、下面關於 D3 的說法,哪個是錯誤的?

A、 D3 是一個被數據驅動的文檔

B、 D3 是一個 JavaScript 的函數庫,使用它主要是用來做數據可視化的

C、 D3 是一個 JavaScript 函數庫,並不需要通常所說的"安裝"

D、 D3 有多個文件,在 HTML 中引用即可

190、在大數據時代,可視化技術可以支持實現哪些目標?

A、 觀測、跟蹤數據

B、 分析數據

C、 輔助理解數據

 

D、 增強數據吸引力

191、信息圖表是信息、數據、知識等的視覺化表達,下列哪個說法正確?

A、 谷歌公司的制圖服務接口 Google Chart API,可以用來為統計數據並自動 生成圖片

B、 D3 是最流行的可視化庫之一,是一個用於網頁作圖、生成互動圖形的 JavaScrip 函數庫

C、 Visual.ly 可以用它來快速創建自定義的、樣式美觀且具有強烈視覺沖擊 力的信息圖表

D、 大數據魔鏡是一款優秀的國產數據分析軟件,它豐富的數據公式和算法可 以讓用戶真正理解探索分析數據

192、下列說法正確的有?

A、 HTML:超文本標記語言,用於設定網頁的內容

B、 CSS:一種直譯式腳本語言,用於設定網頁的行為

C、 DOM:文檔對象模型,用於修改文檔的內容和結構

D、 SVG:層疊樣式表,用於設定網頁的樣式

193、D3 可以處理哪些類型的數據?

A、 數值數組

B、 字符串

C、 對象(本身包含其他數組或鍵/值對)

D、 JSON 和 GeoJSON

194、下列描述正確的有?

A、 d3.select("body")查找 DOM 中的 body

B、 selectAll("p")選擇 DOM 中的所有段落

C、 enter()綁定數據和 DOM 元素

D、 text("New paragraph!")為新創建的 p 標簽插入一個文本值 195、下列關於 SVG 標簽的描述,說法正確的有?

A、 圓。使用 cx 和 cy,指定指定半徑的中心的坐標,和ŗ表示半徑

B、 線。使用 x1 和 Y1 到指定線的一端的坐標,x2 和 y2 指定的另一端的坐 標。

C、 文本。使用 x 和 y 指定文本的位置

D、 橢圓。使用 x 和 y 的指定左上角的坐標,width 和 height 指定的尺寸 196、下列關於 SVG 性質的描述,說法正確的有?

 

A、 描邊(stroke) -顏色值

B、 描邊寬度(stroke-width) -數字(通常以像素為單位)

C、 SVG 的默認樣式是黑色填充

D、 不透明度(opacity) – 0.0(完全透明)和 1.0(完全不透明)之間的 數值

197、下列關於數據可視化的描述,正確的有?

A、 數據可視化是指將大型數據集中的數據以圖形圖像形式表示

B、 數據可視化技術的基本思想是將數據庫中每一個數據項作為單個圖元素表 示

C、 利用數據分析和開發工具發現其中未知信息的處理過程

D、 將數據的各個屬性值以一維數據的形式表示

198、下列說法中,哪些是正確的?

A、 CSS:層疊樣式表,用於設定網頁的樣式

B、 JavaScript:一種直譯式腳本語言,用於設定網頁的行為

C、 SVG 標簽包含一些視覺元素,包括矩形,圓形,橢圓形,線條,文字和路 徑等

D、 SVG 的默認樣式是黑色填充。如果想換顏色,就必須將樣式應用到相應的 元素

199、下列說法中,哪些是正確的?

A、 Modest Maps 是一個小型、可擴展、交互式的免費庫

B、 Leaflet 是一個小型化的地圖框架,通過小型化和輕量化來滿足移動網頁 的需要

C、 Google Fusion Tables 讓一般使用者也可以輕松制作出專業的統計地圖

D、 大數據魔鏡是一款優秀的國產數據分析軟件,它豐富的數據公式和算法可 以讓用戶真正理解探索分析數據

200、下列說法錯誤的是?

A、 UserCF 算法推薦的是那些和目標用戶有共同興趣愛好的其他用戶所喜歡的 物品

B、 ItemCF 算法推薦的是那些和目標用戶之前喜歡的物品類似的其他物品

C、 UserCF 算法的推薦更偏向個性化

D、 UserCF 隨着用戶數目的增大,用戶相似度計算復雜度越來越高 201、下面關於 UserCF 算法和 ItemCF 算法的對比,哪個是錯誤的?

 

A、 UserCF 算法的推薦更偏向社會化:適合應用於新聞推薦、微博話題推薦等 應用場景,其推薦結果在新穎性方面有一定的優勢

B、 ItemCF 算法的推薦更偏向於個性化

C、 ItemCF 隨着用戶數目的增大,用戶相似度計算復雜度越來越高

D、 UserCF 推薦結果相關性較弱,難以對推薦結果作出解釋,容易受大眾影響 而推薦熱門物品

202、下列哪一項不屬於大數據的應用?

A、 電信行業:客戶離網分析

B、 智能機器人

C、 零售行業:發現關聯購買行為、進行客戶群體細分

D、 推薦系統

203、下列關於推薦系統的描述,哪一項是錯誤的?

A、 推薦系統是大數據在互聯網領域的典型應用

B、 推薦系統是自動聯系用戶和物品的一種工具

C、 推薦系統可以創造全新的商業和經濟模式,幫助實現長尾商品的銷售

D、 推薦系統分為基於物品的協同過濾和基於商家的協同過濾

204、下列哪一項不屬於推薦算法?

A、 基於物品和商家的聯合協同推薦

B、 基於統計的推薦

C、 專家推薦

D、 基於內容的推薦

205、下列描述有誤的是?

A、 專家推薦:人工推薦,由資深的專業人士來進行物品的篩選和推薦,需要 較多的人力成本性

B、 基於統計的推薦:通過機器學習的方法去描述內容的特征,並基於內容的 特征來發現與之相似的內容

C、 協同過濾推薦:應用最早和最為成功的推薦方法之一

D、 混合推薦:結合多種推薦算法來提升推薦效果

206、下列哪一項不屬於完整推薦系統的三個模塊之一?

A、 用戶建模模塊

B、 推薦對象建模模塊

 

C、 推薦算法模塊

D、 數據采集模塊

207、下列關於協同過濾的說法,哪一項是錯誤的?

A、 協同過濾可分為基於用戶的協同過濾和基於物品的協同過濾

B、 UserCF 算法符合人們對於"趣味相投"的認知,即興趣相似的用戶往往有 相同的物品喜好

C、 實現 UserCF 算法的關鍵步驟是計算物品與物品之間的相似度

D、 基於物品的協同過濾算法(簡稱 ItemCF 算法)是目前業界應用最多的算法 208、下列哪個說法是錯誤的?

A、 無論是亞馬遜還是 Netflix,其推薦系統的基礎都是 ItemCF 算法

B、 ItemCF 算法是給目標用戶推薦那些和他們之前喜歡的物品相似的物品

C、 ItemCF 算法主要通過分析用戶的行為記錄來計算物品之間的相似度

D、 實現 UserCF 算法的關鍵步驟是計算物品與物品之間的相似度

209、下列哪一項說法是錯誤的?

A、 UserCF 算法推薦的是那些和目標用戶有共同興趣愛好的其他用戶所喜歡的 物品

B、 ItemCF 算法推薦的是那些和目標用戶之前喜歡的物品類似的其他物品

C、 ItemCF 算法的推薦更偏向社會化,而 UserCF 算法的推薦更偏向於個性化

D、 ItemCF 算法傾向於推薦與用戶已購買商品相似的商品,往往會出現多樣性 不足、推薦新穎度較低的問題

210、下列哪些屬於大數據應用?

A、 推薦系統:為用戶推薦相關商品

B、 物流:基於大數據和物聯網技術的智能物流

C、 智能交通:利用交通大數據,實現交通實時監控

D、 汽車:無人駕駛汽車,實時采集車輛各種行駛數據和周圍環境 211、下列關於推薦系統集群的描述,哪些是正確的?

A、 為了讓用戶從海量信息中高效地獲得自己所需的信息,推薦系統應運而生

B、 推薦系統是大數據在互聯網領域的典型應用

C、 推薦系統是自動聯系用戶和物品的一種工具

D、 推薦系統是利用大數據為用戶推薦消費內容、調整線下門店布局、控制店 內人流量

 

212、下列關於推薦長尾理論的描述,哪些是正確的?

A、 推薦系統可以創造全新的商業和經濟模式,幫助實現長尾商品的銷售

B、 "長尾"概念於 2004 年提出,用來描述以亞馬遜為代表的電子商務網站的 商業和經濟模式

C、 可以通過發掘長尾商品並推薦給感興趣的用戶來提高銷售額

D、 熱門推薦的主要缺陷在於推薦的范圍有限,所推薦的內容在一定時期內也 相對固定。無法實現長尾商品的推薦

213、推薦系統的本質是建立用戶與物品的聯系,根據推薦算法的不同,推薦 方法包括以下哪幾類?

A、 專家推薦:人工推薦,由資深的專業人士來進行物品的篩選和推薦,需要 較多的人力成本

B、 基於統計的推薦:基於統計信息的推薦(如熱門推薦),易於實現,但對 用戶個性化偏好的描述能力較弱

C、 基於內容的推薦:通過機器學習的方法去描述內容的特征,並基於內容的 特征來發現與之相似的內容

D、 混合推薦:結合多種推薦算法來提升推薦效果 214、一個完整的推薦系統通常包括以下哪三個模塊?

A、 用戶建模模塊

B、 數據采集模塊

C、 推薦對象建模模塊

D、 推薦算法模塊

215、下列關於推薦系統的描述,哪些是正確的?

A、 用戶建模模塊:對用戶進行建模,根據用戶行為數據和用戶屬性數據來分 析用戶的興趣和需求

B、 推薦對象建模模塊:根據對象數據對推薦對象進行建模

C、 推薦算法模塊:基於用戶特征和物品特征,采用推薦算法計算得到用戶可 能感興趣的對象

D、 推薦算法模塊:根據推薦場景對推薦結果進行一定調整,將推薦結果最終 展示給用戶

216、協同過濾可分為哪幾種過濾方式?

A、 基於用戶的協同過濾

B、 基於物品的協同過濾

C、 基於用戶和物品的聯合協同過濾

 

D、 基於商家的協同過濾

217、關於基於用戶的協同過濾,下列哪些說法是正確的?

A、 基於用戶的協同過濾算法(簡稱 UserCF 算法)在 1992 年被提出,是推薦 系統中最古老的算法

B、 UserCF 算法符合人們對於"趣味相投"的認知

C、 實現 UserCF 算法的關鍵步驟是計算用戶與用戶之間的興趣相似度

D、 UserCF 算法符合興趣相似的用戶往往有相同的物品喜好

218、實現 UserCF 算法的關鍵步驟是計算用戶與用戶之間的興趣相似度,下列 哪些是屬於計算相似度的算法?

A、 泊松相關系數

B、 余弦相似度

C、 調整余弦相似度

D、 調整正弦相似度

219、下列關於協同過濾算法的描述,哪些是正確的?

A、 基於物品的協同過濾算法(簡稱 ItemCF 算法)是目前業界應用最多的算法

B、 ItemCF 算法是給目標用戶推薦那些和他們之前喜歡的物品相似的物品

C、 ItemCF 算法通過建立用戶到物品倒排表(每個用戶喜歡的物品的列表)來 計算物品相似度

D、 UserCF 算法推薦的是那些和目標用戶有共同興趣愛好的其他用戶所喜歡的 物品

220、下列關於 BigTable 的描述,哪個是錯誤的?

A、 爬蟲持續不斷地抓取新頁面,這些頁面每隔一段時間地存儲到 BigTable 里

B、 BigTable 是一個分布式存儲系統

C、 BigTable 起初用於解決典型的互聯網搜索問題

D、 網絡搜索應用查詢建立好的索引,從 BigTable 得到網頁

221、下列選項中,關於 HBase 和 BigTable 的底層技術對應關系,哪個是錯誤 的?

A、 GFS 與 Zookeeper

B、 GFS 與 HDFS

C、 MapReduce 與 Hadoop MapReduce

D、 Chubby 與 Zookeeper

222、在 HBase 中,關於數據操作的描述,下列哪一項是錯誤的?

 

A、 HBase 則采用了更加簡單的數據模型,它把數據存儲為未經解釋的字符串

B、 HBase 操作不存在復雜的表與表之間的關系

C、 HBase 操作只有簡單的插入、查詢、刪除、清空等

D、 HBase 在設計上就避免了復雜的表和表之間的關系 223、在 HBase 訪問接口中,Pig 主要用在哪個場合?

A、 適合做數據統計

B、 適合 HBase 管理使用

C、 適合其他異構系統在線訪問 HBase 表數據

D、 適合 Hadoop MapReduce 作業並行批處理 HBase 表數據

224、HBase 中需要根據某些因素來確定一個單元格,這些因素可以視為一個 "四維坐標",下面哪個不屬於"四維坐標"?

A、 關鍵字

B、 行鍵

C、 列族

D、 時間戳

225、關於 HBase 的三層結構中各層次的名稱和作用的說法,哪個是錯誤的?

A、 Zookeeper 文件記錄了用戶數據表的 Region 位置信息

B、 -ROOT-表記錄了.META.表的 Region 位置信息

C、 .META.表保存了 HBase 中所有用戶數據表的 Region 位置信息

D、 Zookeeper 文件記錄了-ROOT-表的位置信息

226、下面關於主服務器 Master 主要負責表和 Region 的管理工作的描述,哪 個是錯誤的?

A、 實現相同 Region 服務器之間的負載均衡行

B、 在 Region 分裂或合並后,負責重新調整 Region 的分布

C、 對發生故障失效的 Region 服務器上的 Region 進行遷移

D、 管理用戶對表的增加、刪除、修改、查詢等操作

227、HBase 實際應用中的性能優化方法不包括下面哪一項?

A、 創建表的時候,可以通過 HColumnDescriptor.setInMemory(true)將表放 到 Region 服務器的緩存中,保證在讀取的時候被 cache 命中

B、 創建表的時候,可以通過 HColumnDescriptor.setMaxVersions(int maxVersions)設置表中數據的最大版本,如果只需要保存最新版本的數據,那 么可以設置 setMaxVersions(1)

 

C、 創建表的時候,可以通過 HColumnDescriptor.setTimeToLive(int timeToLive)設置表中數據的存儲生命期

D、 如果最近寫入 HBase 表中的數據是最可能被訪問的,可以考慮將時間戳作 為行鍵的一部分

228、HBase 只有一個針對行健的索引,如要要訪問 HBase 表中的行,下面哪種 方式是不可行的?

A、 通過單個行健訪問

B、 通過時間戳訪問

C、 通過一個行健的區間來訪問

D、 全表掃描

229、下面關於 Region 的說法,哪個是錯誤的?

A、 同一個 Region 不會被分拆到多個 Region 服務器

B、 為了加快訪問速度,.META.表的全部 Region 都會被保存在內存中

C、 一個-ROOT-表可以有多個 Region

D、 為了加速尋址,客戶端會緩存位置信息,同時,需要解決緩存失效問題

230、關系數據庫已經流行很多年,並且 Hadoop 已經有了 HDFS 和 MapReduce, 為什么需要 HBase?

A、 Hadoop 可以很好地解決大規模數據的離線批量處理問題,但是,受限於 Hadoop MapReduce 編程框架的高延遲數據處理機制,使得 Hadoop 無法滿足大 規模數據實時處理應用的需求上

B、 HDFS 面向批量訪問模式,不是隨機訪問模式

C、 傳統的通用關系型數據庫無法應對在數據規模劇增時導致的系統擴展性和 性能問題

D、 傳統關系數據庫在數據結構變化時一般需要停機維護;空列浪費存儲空間 231、HBase 與傳統的關系數據庫的區別主要體現在以下哪幾個方面?

A、 數據類型

B、 數據操作

C、 存儲模式

D、 數據維護

232、HBase 訪問接口類型包括哪些?

A、 Native Java API

B、 HBase Shell

 

C、 Thrift Gateway

D、 REST Gateway

233、下列關於數據模型的描述,哪些是正確的?

A、 HBase 采用表來組織數據,表由行和列組成,列划分為若干個列族

B、 每個 HBase 表都由若干行組成,每個行由行鍵(row key)來標識

C、 列族里的數據通過列限定符(或列)來定位

D、 每個單元格都保存着同一份數據的多個版本,這些版本采用時間戳進行索 引

234、HBase 的實現包括哪三個主要的功能組件?

A、 庫函數:鏈接到每個客戶端

B、 一個 Master 主服務器

C、 許多個 Region 服務器

D、 部署在廉價的計算機集群中

235、HBase 的三層結構中,三層指的是哪三層?

A、 Zookeeper 文件

B、 -ROOT-表

C、 .META.表

D、 數據類型

236、HBase 性能監視主要包括以下哪幾方面?

A、 Master-status(自帶)

B、 Ganglia

C、 OpenTSDB

D、 Ambari

237、Zookeeper 是一個很好的集群管理工具,被大量用於分布式計算,它主要 提供什么服務?

A、 配置維護

B、 域名服務

C、 分布式同步

D、 組服務

238、下列關於 Region 服務器工作原理的描述,哪些是正確的?

A、 每個 Region 服務器都有一個自己的 HLog 文件

 

B、 每次刷寫都生成一個新的 StoreFile,數量太多,影響查找速度

C、 合並操作比較耗費資源,只有數量達到一個閾值才啟動合並

D、 Store 是 Region 服務器的核心

239、下列關於 HLog 工作原理的描述,哪些是正確的?

A、 分布式環境必須要考慮系統出錯。HBase 采用 HLog 保證

B、 HBase 系統為每個 Region 服務器配置了一個 HLog 文件

C、 Zookeeper 會實時監測每個 Region 服務器的狀態

D、 Master 首先會處理該故障 Region 服務器上面遺留的 HLog 文件 240、下列關於圖結構數據的描述,錯誤的是?

A、 許多非圖結構的大數據,通常會被轉換為關系模型后進行分析

B、 許多大數據都是以大規模圖或網絡的形式呈現

C、 圖數據結構很好地表達了數據之間的關聯性

D、 關聯性計算是大數據計算的核心

241、下面哪個細節是用戶通過網頁監控看不到的?

A、 關於出度分布的柱狀圖

B、 處於活躍狀態的邊數量

C、 在當前超步的時間信息和消息流量

D、 所有用戶自定義 Aggregator 的值

242、在 Pregel 計算模型中,圖中的每個頂點會對應一個計算單元,下列哪一 項不屬於計算單元的成員變量?

A、 頂點值(Vertex value):頂點對應的 PR 值

B、 出射邊(Out edge):只需要表示一條邊,可以不取值

C、 消息(Message):傳遞的消息

D、 入射邊(Iut edge):只需要表示一條邊,可以不取值

243、采用 MapReduce 實現 PageRank 的計算過程包括三個階段,下列哪一項是 錯的?

A、 第一階段:解析網頁

B、 第二階段:PageRank 分配

C、 第三階段:收斂階段

D、 第一階段:收集網頁

244、下列關於 PageRank 算法在 MapReduce 中的實現的描述,錯誤的是?

 

A、 解析網頁的任務就是分析一個頁面的鏈接數,但是不賦初值

B、 PageRank 分配就是多次迭代計算頁面的 PageRank 值

C、 收斂階段的任務就是由一個非並行組件決定是否達到收斂

D、 一般判斷是否收斂的條件是所有網頁的 PageRank 值不再變化,或者運行 30 次以后我們就認為已經收斂了

245、下列哪個不屬於 PageRank 算法在 Pregel 和 MapReduce 中實現方式的區 別?

A、 Pregel 將 PageRank 處理對象看成是連通圖,而 MapReduce 則將其看成是 鍵值對

B、 Pregel 將計算細化到頂點,同時在頂點內控制循環迭代次數

C、 apReduce 將計算批量化處理,按任務進行循環迭代控制

D、 圖算法如果用 Pregel 實現,需要一系列的 Pregel 的調用 246、下列哪項不屬於在 Vetex 類中的值類型參數?

A、 頂點的出度

B、 頂點

C、 邊

D、 消息

247、在每個超步中,Worker 調用頂點上的 Compute()函數,下列哪個參數是 不需要傳遞?

A、 該頂點的當前值

B、 一個接收到的消息的迭代器

C、 一個出射邊的迭代器

D、 一個入射邊的迭代器

248、下列哪一項不屬於每個超步的組件?

A、 全局計算

B、 局部計算

C、 通訊

D、 柵欄同步

249、在一個 Worker 中,它所管轄的分區的狀態信息是保存在內存中的,下列 哪一項不屬於分區的狀態信息?

A、 頂點的當前值

B、 消息隊列

 

C、 標志位

D、 一個接收到的消息的迭代器

250、很多傳統的圖計算算法都存在以下哪些典型問題?

A、 常常表現出比較差的內存訪問局部性

B、 針對單個頂點的處理工作過少

C、 計算過程中伴隨着並行度的改變

D、 計算過程簡易

251、針對大型圖(比如社交網絡和網絡圖)的計算問題,哪些說法是正確 的?

A、 為特定的圖應用定制相應的分布式實現:通用性不好

B、 基於現有的分布式計算平台進行圖計算:在性能和易用性方面往往無法達 到最優

C、 使用單機的圖算法庫,但是,在可以解決的問題的規模方面具有很大的局 限性

D、 使用已有的並行圖計算系統,但是,對大規模分布式系統非常重要的一些 方面(比如容錯),無法提供較好的支持

252、針對大型圖的計算,目前通用的圖計算軟件主要哪些?

A、 基於遍歷算法的、實時的圖數據庫,如 Neo4j、OrientD

B、DEX 和 Infinite Graph

B、 以圖頂點為中心的、基於消息傳遞批處理的並行引擎,如 GoldenOrb、 Giraph、Pregel 和 Hama

C、 基於遍歷算法的、實時的圖數據庫,如 GoldenOrb、Giraph、Pregel 和 Hama

D、 以圖頂點為中心的、基於消息傳遞批處理的並行引擎,如 Neo4j、 OrientD

B、DEX 和 Infinite Graph

253、一次 BSP(Bulk Synchronous Parallel Computing Model,又稱"大同 步"模型)計算過程包括一系列全局超步(所謂的超步就是計算中的一次迭 代),每個超步主要包括哪些組件?

A、 局部計算:每個參與的 處理器都有自身的計算任務

B、 通訊:處理器群相互交換數據

C、 柵欄同步:當一個處理器遇到"路障"(或柵欄),會等到其他所有處理 器完成它們的計算步驟

D、 基於現有的分布式計算平台進行圖計算 254、下列說法正確的是?

 

A、 在 Pregel 執行計算過程時,在每個超步中都會並行調用每個頂點上定義的 Compute()函數

B、 頂點之間的通訊是借助於消息傳遞機制來實現的

C、 在默認情況下,Pregel 計算框架並不會開啟 Combiner 功能

D、 通常只對那些滿足交換律和結合律的操作才可以去開啟 Combiner 功能 255、在 Pregel 計算框架中,圖的保存格式多種多樣,具體包括哪些?

A、 文本文件

B、 關系數據庫

C、 鍵值數據庫

D、 語音文件

256、下列對於 Pregel 的執行過程,哪些是正確的?

A、 選擇集群中的多台機器執行圖計算任務,每台機器上運行用戶程序的一個 副本

B、 Master 把一個圖分成多個分區,並把分區分配到多個 Worker

C、 ster 會把用戶輸入划分成多個部分,通常是基於文件邊界進行划分

D、 ster 向每個 Worker 發送指令,Worker 收到指令后,開始運行一個超步

257、在一個 Worker 中,它所管轄的分區的狀態信息是保存在內存中的,分區 中的頂點的狀態信息包括?

A、 頂點的當前值

B、 以該頂點為起點的出射邊列表,每條出射邊包含了目標頂點 ID 和邊的值

C、 消息隊列,包含了所有接收到的、發送給該頂點的消息

D、 標志位,用來標記頂點是否處於活躍狀態

258、在每個超步中,Worker 會對自己所管轄的分區中的每個頂點進行遍歷, 並調用頂點上的 Compute()函數,在調用時,會把以下哪些參數傳遞進去?

A、 該頂點的當前值

B、 一個接收到的消息的迭代器

C、 一個出射邊的迭代器

D、 標志位,用來標記頂點是否處於活躍狀態 259、下列說法正確的有?

A、 在 Pregel 中,為了獲得更好的性能,"標志位"和輸入消息隊列是分開保 存的

 

B、 在超步 S 中,當一個 Worker 在進行頂點處理時,用於當前超步的消息會被 處理

C、 需要兩個消息隊列用於存放作用於當前超步 S 的消息和作用於下一個超步 S+1 的消息

D、 每個 Worker 上都保存了一個或多個分區的狀態信息,當一個 Worker 發生 故障時,它所負責維護的分區的當前狀態信息就會丟失


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM