hadoop面接問題

5966 ワード

一、不定項選択問題(1-12問題毎に2点、13問題3点、計27点)

次のプログラムはHDFSデータストレージ(C)?A NameNode B Jobtracker C Datanode D secondaryNameNode E tasktracker

を担当します

SecondaryNameNodeのどちらが正しいか(C)?A NameNodeのホット・スペアです.Bメモリには必要ありません.C NameNodeのログのマージと編集を支援し、NameNodeの起動時間を短縮することを目的としています.D SecondaryNameNodeはNameNodeとノードに配備する必要があります.

Client側でファイルをアップロードする場合、次のどれが正しい(B)ですか?AデータはNameNodeを経由してDataNode B Client側に渡され、ファイルをBlockに切り分けて順次アップロードされます.C Clientはデータを1台のDataNodeにアップロードし、NameNodeがBlockコピーDを担当します.あるDataNodeが失敗した場合、クライアントは他のDataNode

に転送しません.

以下のオプションは、HBAseの特性(ABCD)?A高信頼性B高性能Cの列D向け伸縮性

を正確に記述する.

以下では、(D)A HDFSが分散型ストレージの問題を解決するB MapReduceである計算の問題を解決するC HBAseが大規模なデータセットD HBAseにリアルタイムでランダムにアクセス可能であることを示す.

Hadoopはどの言語で書かれた(C)A Scala B Erlang C Java D Python

以下のどれがHadoopが実行するモードではないか(B).A単機版B埋め込み式C擬似分布式D完全分布式

Hadoop分散ファイルシステム(HDFS)は(AC)の特性を有する.A適合データバッチ処理Bデータ処理能力が極めて強いC最大化スループットDは、データへの移行E適合マルチスレッド問題 :

の計算を可能にする

HDFSシステムは主に(AB)2種類のノードを含む.AメタデータノードBデータノードCメタノードDサブノード

Hadoop Block Size修正可能かどうか(B)A不可B可

Zookeeperの役はどれらがありますか?(ABD) A Leader B Follower C QuorumPeerMain D Observer

分布式計算jobを開発する際、reduce段階を取り除くことができるという説は(A)のAが正しいBエラー

である.

次のコンポーネントのデフォルトポート番号を書き出し、対応する場所(各コンポーネントは1つのデフォルトポート番号のみ対応)(バージョンhadoop 2.6.0-CDH 5.12.4.2)a)HDFS Namenode UI:50070 b)ResourceManager UI:8088 c)fsに記入する.defaultFS:9000または8020

二、簡単な答え(52点)

MapReduceでデータの傾きの問題が発生した原因と解決策は?(6点)

--  :   key    ,          
--    :key       ,           ,

Hadoop Shuffleの原理過程(詳細であればあるほど良い)(5点)

について説明してください.

map          ,      ,       
reduce  map          ,

詳細はリンクを参照:mapreduceプロシージャ解析

hdfs書き込みと読み取りの流れを簡単に説明します(6分)詳細はリンクを参照:hdfs読み書きの流れ

なぜhdfsは小さなファイルを保存するのに適していないのですか?(4点)

           ,         namenode

hadoopの中のcombineの作用?(3点)

 map     ,      reduce,           ,

hadoopに対するいくつかの理解(ヒント:Hadoopの概念、コンポーネント、役割の面から答えることができる)(5点)

  :            
  :hdfs-     ,mapreduce-       ,yarn-       ,commen-

Hiveのチューニング方法(8点)詳細はリンク:hiveチューニング

を参照

スライスとパーティションの違い(2点)

  :                ,  map task      
  : reduce    ,    hash

YarnのJobコミットプロセス(6分)詳細はリンクを参照:分散リソース管理yarn

Hiveの内部テーブルと外部テーブルの概念(4分)

   :     ,hive      ,hdfs           ,        
   :        hdfs  ,          ,

HBAse行キーのホットな問題(3点)

を回避する方法

     ,  ,hash

三、プログラミング問題(各問題7点、計21点)

MapReduceを利用してword countを実現するリンクを参照:MapReduce実現語周波数統計

既存testテーブルのshop_id,item_id,num 3列HiveSQLを用いて計算したa,b列(ヒント:shop_idパケット、aはnum値/各グループnumの和、bはaのグループ内ソート)

shop_id
item_id
num
a
b
A
a
10
0.37
2
A
b
12
0.44
1
B
a
8
0.5
1
A
c
5
0.19
3
B
c
8
0.5
1
C
b
9
1
1

With  t1 as(
Select * ,sum(num) over(partition by shop_id) as s ,rank() over(partition by shop_id order by num desc ) as r from test)
Select t1.shop_id ,t1.item_id,t1.num,t1.num/s as a,t1.r as b
From t1;

hiveを使用してnum列のsum値

を計算する
item
num
sum
A
1,2,3,4
B
2,5,1

Select item,num,sum(c)
From test2 
Lateral view explode(split(num,”,”)) tmp as c
group by item,num;

Dependency Injectionについて調べてみた

VS 2015 C++は2つをどのように接続するか.cppファイル