大數據平台搭建期末復習題(選擇)0112


下面哪個程序負責 HDFS 數據存儲。

secondaryNameNode

NameNode

Jobtracker

Datanode (答案)

HDFS是基於流數據模式訪問和處理的超大文件的需求而開發的,適合讀寫的任務是?

多次寫入,少次讀

一次寫入,少次讀

一次寫入,多次讀 (答案)

多次寫入,多次讀

以下哪一項屬於非結構化數據。

財務系統數據

日志數據

視頻監控數據 (答案)

企業ERP數據

下列關於MapReduce不正確的是?

MR只能用Java語言編寫 (答案)

MR是一種計算框架

MR隱藏了並行計算的細節,便於使用

MR來源於Google的學術論文

HDFS 中的 block 默認保存幾個備份。

不確定

1

2

3 (答案)

下列哪項通常是集群的最主要瓶頸。

磁盤IO (答案)

CPU

網絡

內存

Hadoop作者是下列哪一位?

Grace Hopper

Martin Fowler

Kent Beck

Doug cutting (答案)

以下哪一項不屬於Hadoop可以運行的模式。

分布式模式

偽分布式模式

互聯模式 (答案)

單機模式

大數據的特點不包括下面哪一項?

多結構化數據

價值密度高 (答案)

增長速度快

巨大的數據量

HDFS2.x 默認 Block Size大小是多少。

128MB (答案)

64MB

32MB

256MB

 

關於Secondary NameNode的描述哪項是正確的?

secondaryNameNode應與NameNode部署到一個節點

它的目的是幫助NameNode合並編輯日志,減少NameNode啟動時間 (答案)

它對內存沒有要求

它是NameNode的熱備

配置Hadoop集群只需要修改core-site.xml配置文件就可以。

錯誤 (答案)

正確

namenode默認的WebUI訪問端口號是多少

8020 (答案)

50070

50020

9000

在Hadoop1.x版本中,MapReduce程序是運行在YARN集群之上。

錯誤 (答案)

正確

以下不是Linux文件數據塊分配方式的是

鏈式分配

連續分配

鍵值分配 (答案)

索引分配

Hadooop是用Java語言開發的。

正確 (答案)

錯誤

不定項選擇題

常見的大數據相關服務包括:

數據的統計分析 (答案)

數據分類

數據查詢分析 (答案)

數據的可視化 (答案)

以下屬於分布式存儲系統的特性的有

易用 (答案)

高性能 (答案)

低成本 (答案)

可擴展性 (答案)

以下屬於Apache HDFS的特點的有

適合GB級數據的存儲 (答案)

高容錯性 (答案)

良好的擴展性 (答案)

功能強大,操作簡單、易用 (答案)

配置Hadoop集群時,下列哪個Hadoop配置文件需要進行修改?

core-site.xml (答案)

ifcfg-eth0

profile

hadoop-env.sh (答案)

在simple03節點上執行啟動命令,NameNode進程會在哪個節點

simple04

simple05

simple03 (答案)

simple06

以下哪個命令組成是錯誤的?

hadoop namenode -format

hadoop fs -cat /hadoop/data/my.txt

stop.sh (答案)

hdfs dfsadmin -report

如果想訪問http://localhost:50070/explorer.html#/上的文件tmp,出現權限訪問受限,執行下列哪個命令

hadoop dfs chmod –R 755 /

hadoop dfs chmod –R 755

hadoop dfs chmod –R 755 /tmp (答案)

hadoop chown –R 755 /tmp

在vim中保存退出的命令是

:nohl

:wq (答案)

:q

q!

下列選項中哪些是Hadoop2.x版本獨有的進程?

JobTracker

NodeManager (答案)

TaskTracker

NameNode

一個gzip文件大小175MB,客戶端設置Block大小為128MB,請問其占用幾個Block?

2 (答案)

4

1

3

下面關於MapReduce模型中Map方法與Reduce方法的描述正確的是?

Map與Map之間不是相互獨立的

Reduce與Reduce之間不是相互獨立的

一個Map操作就是對每個Reduce所產生的一部分中間結果進行合並操作

一個Map方法就是對一部分原始數據進行指定的操作 (答案)

如果我們現有一個安裝2.7.4版本的Hadoop集群,在不修改默認配置的情況下存儲200個每個200M的文本文件,請問最終會在集群中產生多少個數據塊(包括副本)?

1200 (答案)

40000

400

200

HDFS有一個gzip文件大小175MB,客戶端設置Block大小為128MB。當運行mapreduce任務讀取該文件時input split大小為?

175MB (答案)

128MB

一個Map讀取128MB,另外一個Map讀取47MB

啟動hadoop所有進程的命令是

start-hadoop.sh

start-hdfs.sh

start-all.sh (答案)

start-dfs.sh

下列哪個不是HDFS的守護進程?

datanode

MRappMaster (答案)

secondarynamenode

namenode

下列哪個屬性是hdfs-site.xml中的配置?

fs.defaultFS

yarn.resourcemanager.hostname

mapreduce.framework.name

dfs.replication (答案)

當判斷isDirectory不存在的文件,返回的值是

true

0

false (答案)

1

假設已經配置好環境變量,啟動Hadoop和關閉Hadoop的命令分別是

start-hdfs.sh,stop-hdfs.sh

start-hdfs.sh,stop-dfs.sh

start-dfs.sh,stop-dfs.sh (答案)

start-dfs.sh,stop-hdfs.sh

String s=”青春無悔”; int index=s.indexOf(‘春’); 執行后,返回字符’春’的位置是

2

3

0

1 (答案)

MapReduce適用於下列哪個選項?

可以串行處理的應用程序

可以並行處理的應用程序 (答案)

任意可以在Windows Server 2008上的應用程序

任意應用程序

分布式文件系統HDFS采用了主從結構模型,由計算機集群中的多個節點構成的,這些節點分為兩類,存儲元數據和存儲具體數據分別為

從節點,主節點

名稱節點,主節點

名稱節點,數據節點 (答案)

數據節點,名稱節點

在Hadoop中定義的主要公用InputFormat中,默認是哪一個?

SequenceFileInputFormat

KeyValueInputFormat

TextInputFormat (答案)

從互聯網上的多個網頁中,獲取指定位置的數據,通常使用哪種數據采集方法?

日志

傳感器

眾包

爬蟲 (答案)

以下HDFS相關的shell命令不正確的是

hadoop fs -ls <path>:顯示<path>指定的文件的詳細信息

hdfs dfs -rm <path>:刪除路徑<path>指定的文件

hadoop dfs mkdir <path>:創建<path>指定的文件夾 (答案)

hadoop fs -copyFromLocal <path1> <path2>:將路徑<path2>指定的文件或文件夾復制到路徑<path1>指定的文件夾中 (答案)

以下描述錯誤的是?

SequenceFile可以用來作為小文件的合並存儲容器

TextInputFormat的key是LongWritable類型的

CombineFileInputFormat是抽象類

TextInputFormat的key是指該記錄在文件中的行號 (答案)

一個MR程序中的Map Task的個數是由什么決定的?

輸入的總文件數

客戶端程序設置的Map Task的個數

FileInputFormat.getSplits(JobContext job)計算出的邏輯切片的數量 (答案)

輸入的總文件大小/數據塊大小

下列哪種業務場景中,不能直接用Reducer充當Combiner使用?

sum求和

max求最大值

count求計數

avg求平均 (答案)

下列哪種類型的文件不是HDFS集群的元數據存儲格式?

fsimage

edits

edits_inprogress

blk_000003452 (答案)

在MR中,哪個組件是用戶不指定也不會有默認的?

Combiner (答案)

OutputFormat

Partitioner

InputFormat

MR編程模型中以下組件哪個是最后執行的?

Mapper

Partitioner

Reducer (答案)

RecordReader

下列關於MapReduce的描述中正確的是?

MR程序必須包含Mapper和Reducer

MR程序的Map Task可以任意指定

MR程序的Reduce Task可以任意指定

MR程序的默認數據讀取組件是TextInputFormat (答案)

MapReduce的Shuffle過程中哪個操作是最后做的?

溢寫 (答案)

分區

排序

合並

HDFS集群中的namenode職責不包括?

維護HDFS集群的目錄樹結構

維護HDFS集群中的所有數據塊的分布、副本數和負載均衡

負責保存客戶端上傳的數據 (答案)

響應客戶端的所有讀寫數據請求

關於HDFS集群中的DataNode的描述不正確的是?

DataNode之間都是獨立的,相互之間不會有通信 (答案)

存儲客戶端上傳的數據塊

一個DataNode上存儲的所有數據塊可以有相同的 (答案)

響應客戶端的所有讀寫數據請求,為客戶端的存儲和讀取數據提供支撐

關於HDFS的文件寫入,正確的是?

支持多用戶對同一文件的寫操作

復制的文件塊默認存在同一機架的多個不同節點上

用戶可以在文件任意位置進行修改

默認將文件塊復制成三份分別存放 (答案)

執行一個job,如果這個job的輸出路徑已經存在,那么程序會?

拋出警告,但是能夠繼續執行

拋出一個異常,然后退出 (答案)

創建一個新的輸出路徑

覆蓋這個輸出路徑

在 hive 中,實現修改表結構字段的關鍵字是

modify

alter (答案)

update

alert

Hive是由哪家公司開源的大數據處理組件?

Apache

Google

Facebook (答案)

以下哪個組件可以指定對key進行Reduce分發的策略?

RecordReader

Partitioner (答案)

FileInputFormat

Combiner

如果想從 hive shell 命令中退出命令環境,需要執行的命令是

exit (答案)

away

quit

out

把本地數據文件”source.txt”導入 hive 中的命令是

load inpath '/source.txt' overwrite into table student

load data inpath '/source.txt' overwrite into table student

load data local inpath '/source.txt' overwrite into table student (答案)

load data '/source.txt' overwrite into table student

hive 命令行中,執行一次查詢的命令是?

-f

-V

-e (答案)

-S

Hive的計算引擎是什么?

HDFS

MapReduce (答案)

Spark

Hive 查詢語言和 SQL 語言,兩個不同之處在於操作

Join

Bucket (答案)

Group By

Partition (答案)

下面與HDFS類似的框架是?

NTFS

EXT3

GFS (答案)

FAT32

Mapreduce 的 input split 就是一個 block。

正確

錯誤 (答案)

如果 NameNode 意外終止,SecondaryNameNode 會接替它使集群繼續工作。

錯誤 (答案)

正確

下列哪個程序通常與NameNode 在一個節點啟動

DataNode

Jobtracker (答案)

TaskTracker

SecondaryNameNode

Doug Cutting所創立的項目的名稱都受到其家人的啟發,以下項目不是由他創立的項目是

Solr (答案)

Nutch

Lucene

Hadoop

hadoop dfsadmin –report 命令用於檢測 HDFS 損壞塊。

錯誤 (答案)

正確

Slave 節點要存儲數據,所以它的磁盤越大越好。

錯誤 (答案)

正確

Hadoop 支持數據的隨機讀寫。

正確

錯誤 (答案)

Block Size 是不可以修改的。

錯誤 (答案)

正確

安裝 Hive 所需的環境是

sqoop

Hbase

JDK (答案)

hadoop (答案)

Client 端上傳文件的時候下列哪項正確?

數據經過 NameNode 傳遞給 DataNode

Client 只上傳數據到一台 DataNode,然后由 NameNode 負責 Block 復制工作

Client 端將文件切分為 Block,依次上傳 (答案)

以上都不正確

Hive是一款獨立的數據倉庫工具,因此在啟動前無須啟動任何服務。

正確

錯誤 (答案)

代碼select substr('abcdef',2,3)的結果是哪一個

cde (答案)

bcd

以上結果都不對

bc

下列關於HDFS為存儲MapReduce並行切分和處理的數據做的設計,錯誤的是

輸入分片是一種記錄的邏輯划分,而HDFS數據塊是對輸入數據的物理分割

為實現細粒度並行,輸入分片(Input Split)應該越小越好 (答案)

一台機器可能被指派從輸入文件的任意位置開始處理一個分片

FSDataInputStream擴展了DataInputStream以支持隨機讀

MapReduce框架提供了一種序列化鍵/值對的方法,支持這種序列化的類能夠在Map和Reduce過程中充當鍵或值,以下說法錯誤的是

鍵和值的數據類型可以超出Hadoop自身支持的基本類型

實現WritableComparable<T>接口的類可以是值或鍵

Hadoop的基本類型Text並不實現WritableComparable<T>接口 (答案)

實現Writable接口的類是值

Hive默認不支持動態分區功能,需要手動設置動態分區參數開啟功能。

錯誤

正確 (答案)

float表示的數據類型是

字符性

浮點型 (答案)

布爾型

整數型

關於Hadoop單機模式和偽分布式模式的說法,正確的是

后者比前者增加了HDFS輸入輸出以及可檢查內存使用情況 (答案)

兩者都起守護進程,且守護進程運行在一台機器上

單機模式不使用HDFS,但加載守護進程

兩者都不與守護進程交互,避免復雜性

配置Hadoop時,JAVA_HOME包含在哪一個配置文件中

hadoop-env.sh (答案)

hadoop-site.xml

configuration.xsl

hadoop-default.xml

Hive查詢語言和SQL的一個不同之處在於什么操作

Union

Partition (答案)

Join

Group BY

按粒度大小的順序,Hive數據被分為數據庫、數據表、()和桶。

分區 (答案)

元組

Hive最重視的性能是可測量性、延展性,()和對於輸入格式的寬松匹配性。

快速查詢

容錯性

較低恢復性

可處理大量數據 (答案)

下面哪個進程負責 MapReduce 任務調度。

secondaryNameNode

Jobtracker (答案)

TaskTracker

NameNode

代碼select ceil(2.34)的結果是哪一個

2.3

3 (答案)

2.4

2

以下四個Hadoop預定義的Mapper實現類的描述錯誤的是

RegexMapper<K>實現Mapper<K, Text, Text, LongWritable>,為每個常規表達式的匹配項生成一個(match, 1)對

TokenCountMapper<K>實現Mapper<K, Text, Text, LongWritable>,當輸入的值為分詞時,生成(taken, 1)對

InverseMapper<K, V>實現Mapper<K, V, K, V>,反轉鍵/值對 (答案)

IdentityMapper<K, V>實現Mapper<K, V, K, V>,將輸入直接映射到輸出

HDFS的namenode保存了一個文件包括哪些數據塊,分布在哪些數據節點上,這些信息也存儲在硬盤上。

錯誤 (答案)

正確

對於最小粒度的任務,Hive查詢的反應時間約為

C幾秒

幾分鍾 (答案)

幾微秒

幾毫秒

創建外部表的同時要加載數據文件,數據文件會移到到數據倉庫指定的目錄下。

錯誤 (答案)

正確

Hadoop fs中的-get和-put命令操作對象是

兩者均是 (答案)

目錄

文件

設計分布式數據倉庫hive的數據表時,為取樣更高效,一般可以對表中的連續字段進行什么操作。

分表

分區

索引

分桶 (答案)

修改hive安裝目錄下conf/hive.default.xml.template文件,是否對hive運行產生影響

影響

視情況而定

不影響 (答案)

hive命令行中,執行一次查詢的命令是

-s

-f

-d

-e (答案)

Hive的計算引擎是什么?

HDFS

MapReduce (答案)

Spark

DataFrame 和 RDD 最大的區別

科學統計支持

存儲方式不一樣

外部數據源支持

多了 schema (答案)

下面哪個端口不是 spark 自帶服務的端口

8090 (答案)

18080

8080

4040

Spark的四大組件下面哪個不是

Spark R (答案)

Spark Streaming

MLlib

Graphx

下面哪個不是 RDD 的特點

可持久化

可序列化

可分區

可修改 (答案)

hive shell環境中,查詢當前數據庫所有表的命令是

select databases;

select tables;

show tables; (答案)

show databases;

關於Hive與Hadoop其他組件的關系,描述錯誤的是

Hive對Hbase有強依賴 (答案)

Hive最終將數據存儲在HDFS中

Hive是Hadoop平台的數據倉庫工具

Hive SQL 其本質是執行的MapReduce任務

當發現hive腳本執行時報錯信息中包含如下內容:
FAILED: ClassCastException org.apache.hadoop.hive.serde2.typeinfo.PrimitiveTypeInfo cannot be cast to org.apache.hadoop.hive.serde2.typeinfo.DecimalTypeInfo
則此腳本最可能存在的問題是什么?

字符串和數值類型轉換錯誤 (答案)

GROUP BY 中包含詳單的字段(字段重復)

網絡問題

把本地/source.txt導入hive中student表的命令是

load data local inpath ‘/source.txt’ overwrite table ‘student’;

load data local inpath ‘/source.txt’ overwrite table student; (答案)

load data local inpath /source.txt overwrite table ‘student’;

load data local inpath /source.txt overwrite table student;

Spark RDD中沒有的特性是

分布式

位置優先

固定大小 (答案)

彈性

Spark 支持的分布式部署方式中哪個是錯誤的

spark on YARN

Spark on local (答案)

standalone

spark on mesos

hive 的元數據存儲在 derby 和 mysql 中有什么區別

數據庫的區別

支持網絡環境

多會話 (答案)

沒區別

linux在當前目錄創建一個文件名為empty.txt空文件的命令

create table empty.txt

create database empty.txt

touch empty.txt (答案)

create empty.txt

關於Hive建表基本操作描述正確的是

創建外部表時需要指定external關鍵字 (答案)

一旦表創建好,不可再修改列名

一旦表創建好,不可再增加新列

一旦表創建好,不可再修改表名

Task 運行在下來哪里個選項中 Executor 上的工作單元

Driver program

worker node (答案)

Cluster manager

spark master

Spark的特點包括

兼容性 (答案)

通用 (答案)

可延伸

快速 (答案)

以下是Spark中executor的作用是

向Driver反向注冊 (答案)

做資源調度任務

接受Driver端發送來的任務Task,作用在RDD上進行執行 (答案)

保存計算的RDD分區數據 (答案)

Hive數據表插入數據時,insert ( ) table ……,括號中可使哪些關鍵字?

append

into (答案)

overwrite (答案)

DataFrame的groupBy方法返回的結果是什么類型

Column

GroupedData (答案)

RDD

DataFrame

Hadoop文件系統核心模塊不包括下列哪個選項

DataNode

SecondaryNameNode

ResourceManager (答案)

NameNode

關於DataFrame的說法錯誤的是

DataFrame是由SchemaRDD發展而來

DataFrame直接繼承了RDD (答案)

DataFrame是一個分布式Row對象的數據集合

DataFrame實現了RDD的絕大多數功能

按下(   )鍵能終止當前運行的命令

Ctrl+A

Ctrl+D

Ctrl+C (答案)

Ctrl+F

Spark SQL可以處理的數據源包括

數據文件、Hive表、RDD

數據文件、Hive表、RDD、外部數據庫 (答案)

Hive表

數據文件、Hive表

相比Spark,Spark SOL 有哪些優勢
①Spark SQL擺脫了對Hive的依賴
②Spark SQL支持在Scala中寫SQL語句
③Spark SQL支持parquet文件的讀寫,且保留了Schema
④Spark SQL 支持訪問Hive,而Spark不支持

②③④

①②③ (答案)

①②③④

①②

負責提交MapReduce作業的組件是

JobTracker

JobClient (答案)

TaskTracker

TaskClient

在vi編輯器里,命令"dd"用來刪除當前的

變量

字符

行 (答案)

NameNode周期性地從DataNode接收心跳信號的默認頻率

5分一次

5秒一次

3分一次

3秒一次 (答案)

Spark 中使用 saveAs TextFile存儲數據到HDFS,要求數據類型為

Seq

RDD (答案)

List

Array

查看DataFrame對象df前30條記錄的語句為

df.collect

df.show(30) (答案)

df.show(false)

df.show

HDFS不適合的場景不包括下列哪個選項

大量小文件

低延時的數據訪問

多方讀寫,需要任意的文件修改

流式文件訪問 (答案)

指定HDFS文件塊的副本數的配置文件

hdfs-site.xml (答案)

yarn-site.xml

mapred-site.xml

core-site.xml

shuffle階段完成了數據的

去重

排序 (答案)

分組 (答案)

分區 (答案)

Hadoop具有以下幾個特點

高容錯性 (答案)

高可擴展性 (答案)

高效 (答案)

高可靠性 (答案)

Spark組成部件包括

Executor (答案)

RDD

ResourceManager

Driver (答案)

下面哪些是Spark比MapReduce計算快的原因

基於內存的計算 (答案)

基於分布式計算的框架

基於DAG的調度框架 (答案)

基於Lineage的容錯機制 (答案)

下列哪些是面向對象技術的特征

繼承 (答案)

分布性

多態 (答案)

封裝 (答案)

Mapper類里包括下列哪幾個范型

VALUEOUT (答案)

KEYIN (答案)

KEYOUT (答案)

VALUEIN (答案)

Spark driver的功能是什么

負責向HDFS申請資源

負責了作業的調度 (答案)

負責作業的解析 (答案)

是作業的主進程 (答案)

hive的元數據存儲在 derby 和 mysql 中有什么區別

數據庫的區別

支持網絡環境

多會話 (答案)

沒區別

Spark支持的分布式部署方式中哪個是錯誤的

standalone

Spark on local (答案)

spark on YARN

spark on mesos

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM