hadoop面接問題
5966 ワード
一、不定項選択問題(1-12問題毎に2点、13問題3点、計27点)次のプログラムはHDFSデータストレージ(C)?A NameNode B Jobtracker C Datanode D secondaryNameNode E tasktracker を担当します SecondaryNameNodeのどちらが正しいか(C)?A NameNodeのホット・スペアです.Bメモリには必要ありません.C NameNodeのログのマージと編集を支援し、NameNodeの起動時間を短縮することを目的としています.D SecondaryNameNodeはNameNodeとノードに配備する必要があります. Client側でファイルをアップロードする場合、次のどれが正しい(B)ですか?AデータはNameNodeを経由してDataNode B Client側に渡され、ファイルをBlockに切り分けて順次アップロードされます.C Clientはデータを1台のDataNodeにアップロードし、NameNodeがBlockコピーDを担当します.あるDataNodeが失敗した場合、クライアントは他のDataNode に転送しません.以下のオプションは、HBAseの特性(ABCD)?A高信頼性B高性能Cの列D向け伸縮性 を正確に記述する.以下では、(D)A HDFSが分散型ストレージの問題を解決するB MapReduceである計算の問題を解決するC HBAseが大規模なデータセットD HBAseにリアルタイムでランダムにアクセス可能であることを示す. Hadoopはどの言語で書かれた(C)A Scala B Erlang C Java D Python 以下のどれがHadoopが実行するモードではないか(B).A単機版B埋め込み式C擬似分布式D完全分布式 Hadoop分散ファイルシステム(HDFS)は(AC)の特性を有する.A適合データバッチ処理Bデータ処理能力が極めて強いC最大化スループットDは、データへの移行E適合マルチスレッド問題 の計算を可能にする HDFSシステムは主に(AB)2種類のノードを含む.AメタデータノードBデータノードCメタノードDサブノード Hadoop Block Size修正可能かどうか(B)A不可B可 Zookeeperの役はどれらがありますか?(ABD) A Leader B Follower C QuorumPeerMain D Observer 分布式計算jobを開発する際、reduce段階を取り除くことができるという説は(A)のAが正しいBエラー である.次のコンポーネントのデフォルトポート番号を書き出し、対応する場所(各コンポーネントは1つのデフォルトポート番号のみ対応)(バージョンhadoop 2.6.0-CDH 5.12.4.2)a)HDFS Namenode UI:50070 b)ResourceManager UI:8088 c)fsに記入する.defaultFS:9000または8020 二、簡単な答え(52点) MapReduceでデータの傾きの問題が発生した原因と解決策は?(6点) Hadoop Shuffleの原理過程(詳細であればあるほど良い)(5点) について説明してください.
詳細はリンクを参照:mapreduceプロシージャ解析 hdfs書き込みと読み取りの流れを簡単に説明します(6分)詳細はリンクを参照:hdfs読み書きの流れ なぜhdfsは小さなファイルを保存するのに適していないのですか?(4点) hadoopの中のcombineの作用?(3点) hadoopに対するいくつかの理解(ヒント:Hadoopの概念、コンポーネント、役割の面から答えることができる)(5点) Hiveのチューニング方法(8点)詳細はリンク:hiveチューニング を参照スライスとパーティションの違い(2点) YarnのJobコミットプロセス(6分)詳細はリンクを参照:分散リソース管理yarn Hiveの内部テーブルと外部テーブルの概念(4分) HBAse行キーのホットな問題(3点) を回避する方法
三、プログラミング問題(各問題7点、計21点) MapReduceを利用してword countを実現するリンクを参照:MapReduce実現語周波数統計 既存testテーブルのshop_id,item_id,num 3列HiveSQLを用いて計算したa,b列(ヒント:shop_idパケット、aはnum値/各グループnumの和、bはaのグループ内ソート) shop_id
item_id
num
a
b
A
a
10
0.37
2
A
b
12
0.44
1
B
a
8
0.5
1
A
c
5
0.19
3
B
c
8
0.5
1
C
b
9
1
1 hiveを使用してnum列のsum値 を計算する
item
num
sum
A
1,2,3,4
B
2,5,1
:
-- : key ,
-- :key , ,
map , ,
reduce map ,
詳細はリンクを参照:mapreduceプロシージャ解析
, namenode
map , reduce, ,
:
:hdfs- ,mapreduce- ,yarn- ,commen-
: , map task
: reduce , hash
: ,hive ,hdfs ,
: hdfs , ,
, ,hash
三、プログラミング問題(各問題7点、計21点)
item_id
num
a
b
A
a
10
0.37
2
A
b
12
0.44
1
B
a
8
0.5
1
A
c
5
0.19
3
B
c
8
0.5
1
C
b
9
1
1
With t1 as(
Select * ,sum(num) over(partition by shop_id) as s ,rank() over(partition by shop_id order by num desc ) as r from test)
Select t1.shop_id ,t1.item_id,t1.num,t1.num/s as a,t1.r as b
From t1;
item
num
sum
A
1,2,3,4
B
2,5,1
Select item,num,sum(c)
From test2
Lateral view explode(split(num,”,”)) tmp as c
group by item,num;