下面哪個程序負責 HDFS 數據存儲。
secondaryNameNode
NameNode
Jobtracker
Datanode (答案)
HDFS是基於流數據模式訪問和處理的超大文件的需求而開發的,適合讀寫的任務是?
多次寫入,少次讀
一次寫入,少次讀
一次寫入,多次讀 (答案)
多次寫入,多次讀
以下哪一項屬於非結構化數據。
財務系統數據
日志數據
視頻監控數據 (答案)
企業ERP數據
下列關於MapReduce不正確的是?
MR只能用Java語言編寫 (答案)
MR是一種計算框架
MR隱藏了並行計算的細節,便於使用
MR來源於Google的學術論文
HDFS 中的 block 默認保存幾個備份。
不確定
1
2
3 (答案)
下列哪項通常是集群的最主要瓶頸。
磁盤IO (答案)
CPU
網絡
內存
Hadoop作者是下列哪一位?
Grace Hopper
Martin Fowler
Kent Beck
Doug cutting (答案)
以下哪一項不屬於Hadoop可以運行的模式。
分布式模式
偽分布式模式
互聯模式 (答案)
單機模式
大數據的特點不包括下面哪一項?
多結構化數據
價值密度高 (答案)
增長速度快
巨大的數據量
HDFS2.x 默認 Block Size大小是多少。
128MB (答案)
64MB
32MB
256MB
關於Secondary NameNode的描述哪項是正確的?
secondaryNameNode應與NameNode部署到一個節點
它的目的是幫助NameNode合並編輯日志,減少NameNode啟動時間 (答案)
它對內存沒有要求
它是NameNode的熱備
配置Hadoop集群只需要修改core-site.xml配置文件就可以。
錯誤 (答案)
正確
namenode默認的WebUI訪問端口號是多少
8020 (答案)
50070
50020
9000
在Hadoop1.x版本中,MapReduce程序是運行在YARN集群之上。
錯誤 (答案)
正確
以下不是Linux文件數據塊分配方式的是
鏈式分配
連續分配
鍵值分配 (答案)
索引分配
Hadooop是用Java語言開發的。
正確 (答案)
錯誤
不定項選擇題
常見的大數據相關服務包括:
數據的統計分析 (答案)
數據分類
數據查詢分析 (答案)
數據的可視化 (答案)
以下屬於分布式存儲系統的特性的有
易用 (答案)
高性能 (答案)
低成本 (答案)
可擴展性 (答案)
以下屬於Apache HDFS的特點的有
適合GB級數據的存儲 (答案)
高容錯性 (答案)
良好的擴展性 (答案)
功能強大,操作簡單、易用 (答案)
配置Hadoop集群時,下列哪個Hadoop配置文件需要進行修改?
core-site.xml (答案)
ifcfg-eth0
profile
hadoop-env.sh (答案)
在simple03節點上執行啟動命令,NameNode進程會在哪個節點
simple04
simple05
simple03 (答案)
simple06
以下哪個命令組成是錯誤的?
hadoop namenode -format
hadoop fs -cat /hadoop/data/my.txt
stop.sh (答案)
hdfs dfsadmin -report
如果想訪問http://localhost:50070/explorer.html#/上的文件tmp,出現權限訪問受限,執行下列哪個命令
hadoop dfs chmod –R 755 /
hadoop dfs chmod –R 755
hadoop dfs chmod –R 755 /tmp (答案)
hadoop chown –R 755 /tmp
在vim中保存退出的命令是
:nohl
:wq (答案)
:q
q!
下列選項中哪些是Hadoop2.x版本獨有的進程?
JobTracker
NodeManager (答案)
TaskTracker
NameNode
一個gzip文件大小175MB,客戶端設置Block大小為128MB,請問其占用幾個Block?
2 (答案)
4
1
3
下面關於MapReduce模型中Map方法與Reduce方法的描述正確的是?
Map與Map之間不是相互獨立的
Reduce與Reduce之間不是相互獨立的
一個Map操作就是對每個Reduce所產生的一部分中間結果進行合並操作
一個Map方法就是對一部分原始數據進行指定的操作 (答案)
如果我們現有一個安裝2.7.4版本的Hadoop集群,在不修改默認配置的情況下存儲200個每個200M的文本文件,請問最終會在集群中產生多少個數據塊(包括副本)?
1200 (答案)
40000
400
200
HDFS有一個gzip文件大小175MB,客戶端設置Block大小為128MB。當運行mapreduce任務讀取該文件時input split大小為?
175MB (答案)
128MB
一個Map讀取128MB,另外一個Map讀取47MB
啟動hadoop所有進程的命令是
start-hadoop.sh
start-hdfs.sh
start-all.sh (答案)
start-dfs.sh
下列哪個不是HDFS的守護進程?
datanode
MRappMaster (答案)
secondarynamenode
namenode
下列哪個屬性是hdfs-site.xml中的配置?
fs.defaultFS
yarn.resourcemanager.hostname
mapreduce.framework.name
dfs.replication (答案)
當判斷isDirectory不存在的文件,返回的值是
true
0
false (答案)
1
假設已經配置好環境變量,啟動Hadoop和關閉Hadoop的命令分別是
start-hdfs.sh,stop-hdfs.sh
start-hdfs.sh,stop-dfs.sh
start-dfs.sh,stop-dfs.sh (答案)
start-dfs.sh,stop-hdfs.sh
String s=”青春無悔”; int index=s.indexOf(‘春’); 執行后,返回字符’春’的位置是
2
3
0
1 (答案)
MapReduce適用於下列哪個選項?
可以串行處理的應用程序
可以並行處理的應用程序 (答案)
任意可以在Windows Server 2008上的應用程序
任意應用程序
分布式文件系統HDFS采用了主從結構模型,由計算機集群中的多個節點構成的,這些節點分為兩類,存儲元數據和存儲具體數據分別為
從節點,主節點
名稱節點,主節點
名稱節點,數據節點 (答案)
數據節點,名稱節點
在Hadoop中定義的主要公用InputFormat中,默認是哪一個?
SequenceFileInputFormat
KeyValueInputFormat
TextInputFormat (答案)
從互聯網上的多個網頁中,獲取指定位置的數據,通常使用哪種數據采集方法?
日志
傳感器
眾包
爬蟲 (答案)
以下HDFS相關的shell命令不正確的是
hadoop fs -ls <path>:顯示<path>指定的文件的詳細信息
hdfs dfs -rm <path>:刪除路徑<path>指定的文件
hadoop dfs mkdir <path>:創建<path>指定的文件夾 (答案)
hadoop fs -copyFromLocal <path1> <path2>:將路徑<path2>指定的文件或文件夾復制到路徑<path1>指定的文件夾中 (答案)
以下描述錯誤的是?
SequenceFile可以用來作為小文件的合並存儲容器
TextInputFormat的key是LongWritable類型的
CombineFileInputFormat是抽象類
TextInputFormat的key是指該記錄在文件中的行號 (答案)
一個MR程序中的Map Task的個數是由什么決定的?
輸入的總文件數
客戶端程序設置的Map Task的個數
FileInputFormat.getSplits(JobContext job)計算出的邏輯切片的數量 (答案)
輸入的總文件大小/數據塊大小
下列哪種業務場景中,不能直接用Reducer充當Combiner使用?
sum求和
max求最大值
count求計數
avg求平均 (答案)
下列哪種類型的文件不是HDFS集群的元數據存儲格式?
fsimage
edits
edits_inprogress
blk_000003452 (答案)
在MR中,哪個組件是用戶不指定也不會有默認的?
Combiner (答案)
OutputFormat
Partitioner
InputFormat
MR編程模型中以下組件哪個是最后執行的?
Mapper
Partitioner
Reducer (答案)
RecordReader
下列關於MapReduce的描述中正確的是?
MR程序必須包含Mapper和Reducer
MR程序的Map Task可以任意指定
MR程序的Reduce Task可以任意指定
MR程序的默認數據讀取組件是TextInputFormat (答案)
MapReduce的Shuffle過程中哪個操作是最后做的?
溢寫 (答案)
分區
排序
合並
HDFS集群中的namenode職責不包括?
維護HDFS集群的目錄樹結構
維護HDFS集群中的所有數據塊的分布、副本數和負載均衡
負責保存客戶端上傳的數據 (答案)
響應客戶端的所有讀寫數據請求
關於HDFS集群中的DataNode的描述不正確的是?
DataNode之間都是獨立的,相互之間不會有通信 (答案)
存儲客戶端上傳的數據塊
一個DataNode上存儲的所有數據塊可以有相同的 (答案)
響應客戶端的所有讀寫數據請求,為客戶端的存儲和讀取數據提供支撐
關於HDFS的文件寫入,正確的是?
支持多用戶對同一文件的寫操作
復制的文件塊默認存在同一機架的多個不同節點上
用戶可以在文件任意位置進行修改
默認將文件塊復制成三份分別存放 (答案)
執行一個job,如果這個job的輸出路徑已經存在,那么程序會?
拋出警告,但是能夠繼續執行
拋出一個異常,然后退出 (答案)
創建一個新的輸出路徑
覆蓋這個輸出路徑
在 hive 中,實現修改表結構字段的關鍵字是
modify
alter (答案)
update
alert
Hive是由哪家公司開源的大數據處理組件?
Apache
Facebook (答案)
以下哪個組件可以指定對key進行Reduce分發的策略?
RecordReader
Partitioner (答案)
FileInputFormat
Combiner
如果想從 hive shell 命令中退出命令環境,需要執行的命令是
exit (答案)
away
quit
out
把本地數據文件”source.txt”導入 hive 中的命令是
load inpath '/source.txt' overwrite into table student
load data inpath '/source.txt' overwrite into table student
load data local inpath '/source.txt' overwrite into table student (答案)
load data '/source.txt' overwrite into table student
hive 命令行中,執行一次查詢的命令是?
-f
-V
-e (答案)
-S
Hive的計算引擎是什么?
HDFS
MapReduce (答案)
Spark
Hive 查詢語言和 SQL 語言,兩個不同之處在於操作
Join
Bucket (答案)
Group By
Partition (答案)
下面與HDFS類似的框架是?
NTFS
EXT3
GFS (答案)
FAT32
Mapreduce 的 input split 就是一個 block。
正確
錯誤 (答案)
如果 NameNode 意外終止,SecondaryNameNode 會接替它使集群繼續工作。
錯誤 (答案)
正確
下列哪個程序通常與NameNode 在一個節點啟動
DataNode
Jobtracker (答案)
TaskTracker
SecondaryNameNode
Doug Cutting所創立的項目的名稱都受到其家人的啟發,以下項目不是由他創立的項目是
Solr (答案)
Nutch
Lucene
Hadoop
hadoop dfsadmin –report 命令用於檢測 HDFS 損壞塊。
錯誤 (答案)
正確
Slave 節點要存儲數據,所以它的磁盤越大越好。
錯誤 (答案)
正確
Hadoop 支持數據的隨機讀寫。
正確
錯誤 (答案)
Block Size 是不可以修改的。
錯誤 (答案)
正確
安裝 Hive 所需的環境是
sqoop
Hbase
JDK (答案)
hadoop (答案)
Client 端上傳文件的時候下列哪項正確?
數據經過 NameNode 傳遞給 DataNode
Client 只上傳數據到一台 DataNode,然后由 NameNode 負責 Block 復制工作
Client 端將文件切分為 Block,依次上傳 (答案)
以上都不正確
Hive是一款獨立的數據倉庫工具,因此在啟動前無須啟動任何服務。
正確
錯誤 (答案)
代碼select substr('abcdef',2,3)的結果是哪一個
cde (答案)
bcd
以上結果都不對
bc
下列關於HDFS為存儲MapReduce並行切分和處理的數據做的設計,錯誤的是
輸入分片是一種記錄的邏輯划分,而HDFS數據塊是對輸入數據的物理分割
為實現細粒度並行,輸入分片(Input Split)應該越小越好 (答案)
一台機器可能被指派從輸入文件的任意位置開始處理一個分片
FSDataInputStream擴展了DataInputStream以支持隨機讀
MapReduce框架提供了一種序列化鍵/值對的方法,支持這種序列化的類能夠在Map和Reduce過程中充當鍵或值,以下說法錯誤的是
鍵和值的數據類型可以超出Hadoop自身支持的基本類型
實現WritableComparable<T>接口的類可以是值或鍵
Hadoop的基本類型Text並不實現WritableComparable<T>接口 (答案)
實現Writable接口的類是值
Hive默認不支持動態分區功能,需要手動設置動態分區參數開啟功能。
錯誤
正確 (答案)
float表示的數據類型是
字符性
浮點型 (答案)
布爾型
整數型
關於Hadoop單機模式和偽分布式模式的說法,正確的是
后者比前者增加了HDFS輸入輸出以及可檢查內存使用情況 (答案)
兩者都起守護進程,且守護進程運行在一台機器上
單機模式不使用HDFS,但加載守護進程
兩者都不與守護進程交互,避免復雜性
配置Hadoop時,JAVA_HOME包含在哪一個配置文件中
hadoop-env.sh (答案)
hadoop-site.xml
configuration.xsl
hadoop-default.xml
Hive查詢語言和SQL的一個不同之處在於什么操作
Union
Partition (答案)
Join
Group BY
按粒度大小的順序,Hive數據被分為數據庫、數據表、()和桶。
行
欄
分區 (答案)
元組
Hive最重視的性能是可測量性、延展性,()和對於輸入格式的寬松匹配性。
快速查詢
容錯性
較低恢復性
可處理大量數據 (答案)
下面哪個進程負責 MapReduce 任務調度。
secondaryNameNode
Jobtracker (答案)
TaskTracker
NameNode
代碼select ceil(2.34)的結果是哪一個
2.3
3 (答案)
2.4
2
以下四個Hadoop預定義的Mapper實現類的描述錯誤的是
RegexMapper<K>實現Mapper<K, Text, Text, LongWritable>,為每個常規表達式的匹配項生成一個(match, 1)對
TokenCountMapper<K>實現Mapper<K, Text, Text, LongWritable>,當輸入的值為分詞時,生成(taken, 1)對
InverseMapper<K, V>實現Mapper<K, V, K, V>,反轉鍵/值對 (答案)
IdentityMapper<K, V>實現Mapper<K, V, K, V>,將輸入直接映射到輸出
HDFS的namenode保存了一個文件包括哪些數據塊,分布在哪些數據節點上,這些信息也存儲在硬盤上。
錯誤 (答案)
正確
對於最小粒度的任務,Hive查詢的反應時間約為
C幾秒
幾分鍾 (答案)
幾微秒
幾毫秒
創建外部表的同時要加載數據文件,數據文件會移到到數據倉庫指定的目錄下。
錯誤 (答案)
正確
Hadoop fs中的-get和-put命令操作對象是
兩者均是 (答案)
目錄
文件
設計分布式數據倉庫hive的數據表時,為取樣更高效,一般可以對表中的連續字段進行什么操作。
分表
分區
索引
分桶 (答案)
修改hive安裝目錄下conf/hive.default.xml.template文件,是否對hive運行產生影響
影響
視情況而定
不影響 (答案)
hive命令行中,執行一次查詢的命令是
-s
-f
-d
-e (答案)
Hive的計算引擎是什么?
HDFS
MapReduce (答案)
Spark
DataFrame 和 RDD 最大的區別
科學統計支持
存儲方式不一樣
外部數據源支持
多了 schema (答案)
下面哪個端口不是 spark 自帶服務的端口
8090 (答案)
18080
8080
4040
Spark的四大組件下面哪個不是
Spark R (答案)
Spark Streaming
MLlib
Graphx
下面哪個不是 RDD 的特點
可持久化
可序列化
可分區
可修改 (答案)
hive shell環境中,查詢當前數據庫所有表的命令是
select databases;
select tables;
show tables; (答案)
show databases;
關於Hive與Hadoop其他組件的關系,描述錯誤的是
Hive對Hbase有強依賴 (答案)
Hive最終將數據存儲在HDFS中
Hive是Hadoop平台的數據倉庫工具
Hive SQL 其本質是執行的MapReduce任務
當發現hive腳本執行時報錯信息中包含如下內容:
FAILED: ClassCastException org.apache.hadoop.hive.serde2.typeinfo.PrimitiveTypeInfo cannot be cast to org.apache.hadoop.hive.serde2.typeinfo.DecimalTypeInfo
則此腳本最可能存在的問題是什么?
字符串和數值類型轉換錯誤 (答案)
GROUP BY 中包含詳單的字段(字段重復)
網絡問題
把本地/source.txt導入hive中student表的命令是
load data local inpath ‘/source.txt’ overwrite table ‘student’;
load data local inpath ‘/source.txt’ overwrite table student; (答案)
load data local inpath /source.txt overwrite table ‘student’;
load data local inpath /source.txt overwrite table student;
Spark RDD中沒有的特性是
分布式
位置優先
固定大小 (答案)
彈性
Spark 支持的分布式部署方式中哪個是錯誤的
spark on YARN
Spark on local (答案)
standalone
spark on mesos
hive 的元數據存儲在 derby 和 mysql 中有什么區別
數據庫的區別
支持網絡環境
多會話 (答案)
沒區別
linux在當前目錄創建一個文件名為empty.txt空文件的命令
create table empty.txt
create database empty.txt
touch empty.txt (答案)
create empty.txt
關於Hive建表基本操作描述正確的是
創建外部表時需要指定external關鍵字 (答案)
一旦表創建好,不可再修改列名
一旦表創建好,不可再增加新列
一旦表創建好,不可再修改表名
Task 運行在下來哪里個選項中 Executor 上的工作單元
Driver program
worker node (答案)
Cluster manager
spark master
Spark的特點包括
兼容性 (答案)
通用 (答案)
可延伸
快速 (答案)
以下是Spark中executor的作用是
向Driver反向注冊 (答案)
做資源調度任務
接受Driver端發送來的任務Task,作用在RDD上進行執行 (答案)
保存計算的RDD分區數據 (答案)
Hive數據表插入數據時,insert ( ) table ……,括號中可使哪些關鍵字?
append
into (答案)
overwrite (答案)
DataFrame的groupBy方法返回的結果是什么類型
Column
GroupedData (答案)
RDD
DataFrame
Hadoop文件系統核心模塊不包括下列哪個選項
DataNode
SecondaryNameNode
ResourceManager (答案)
NameNode
關於DataFrame的說法錯誤的是
DataFrame是由SchemaRDD發展而來
DataFrame直接繼承了RDD (答案)
DataFrame是一個分布式Row對象的數據集合
DataFrame實現了RDD的絕大多數功能
按下( )鍵能終止當前運行的命令
Ctrl+A
Ctrl+D
Ctrl+C (答案)
Ctrl+F
Spark SQL可以處理的數據源包括
數據文件、Hive表、RDD
數據文件、Hive表、RDD、外部數據庫 (答案)
Hive表
數據文件、Hive表
相比Spark,Spark SOL 有哪些優勢
①Spark SQL擺脫了對Hive的依賴
②Spark SQL支持在Scala中寫SQL語句
③Spark SQL支持parquet文件的讀寫,且保留了Schema
④Spark SQL 支持訪問Hive,而Spark不支持
②③④
①②③ (答案)
①②③④
①②
負責提交MapReduce作業的組件是
JobTracker
JobClient (答案)
TaskTracker
TaskClient
在vi編輯器里,命令"dd"用來刪除當前的
變量
字符
行 (答案)
字
NameNode周期性地從DataNode接收心跳信號的默認頻率
5分一次
5秒一次
3分一次
3秒一次 (答案)
Spark 中使用 saveAs TextFile存儲數據到HDFS,要求數據類型為
Seq
RDD (答案)
List
Array
查看DataFrame對象df前30條記錄的語句為
df.collect
df.show(30) (答案)
df.show(false)
df.show
HDFS不適合的場景不包括下列哪個選項
大量小文件
低延時的數據訪問
多方讀寫,需要任意的文件修改
流式文件訪問 (答案)
指定HDFS文件塊的副本數的配置文件
hdfs-site.xml (答案)
yarn-site.xml
mapred-site.xml
core-site.xml
shuffle階段完成了數據的
去重
排序 (答案)
分組 (答案)
分區 (答案)
Hadoop具有以下幾個特點
高容錯性 (答案)
高可擴展性 (答案)
高效 (答案)
高可靠性 (答案)
Spark組成部件包括
Executor (答案)
RDD
ResourceManager
Driver (答案)
下面哪些是Spark比MapReduce計算快的原因
基於內存的計算 (答案)
基於分布式計算的框架
基於DAG的調度框架 (答案)
基於Lineage的容錯機制 (答案)
下列哪些是面向對象技術的特征
繼承 (答案)
分布性
多態 (答案)
封裝 (答案)
Mapper類里包括下列哪幾個范型
VALUEOUT (答案)
KEYIN (答案)
KEYOUT (答案)
VALUEIN (答案)
Spark driver的功能是什么
負責向HDFS申請資源
負責了作業的調度 (答案)
負責作業的解析 (答案)
是作業的主進程 (答案)
hive的元數據存儲在 derby 和 mysql 中有什么區別
數據庫的區別
支持網絡環境
多會話 (答案)
沒區別
Spark支持的分布式部署方式中哪個是錯誤的
standalone
Spark on local (答案)
spark on YARN
spark on mesos