hadoop面接問題

5966 ワード

一、不定項選択問題(1-12問題毎に2点、13問題3点、計27点)
  • 次のプログラムはHDFSデータストレージ(C)?A NameNode B Jobtracker C Datanode D secondaryNameNode E tasktracker
  • を担当します
  • SecondaryNameNodeのどちらが正しいか(C)?A NameNodeのホット・スペアです.Bメモリには必要ありません.C NameNodeのログのマージと編集を支援し、NameNodeの起動時間を短縮することを目的としています.D SecondaryNameNodeはNameNodeとノードに配備する必要があります.
  • Client側でファイルをアップロードする場合、次のどれが正しい(B)ですか?AデータはNameNodeを経由してDataNode B Client側に渡され、ファイルをBlockに切り分けて順次アップロードされます.C Clientはデータを1台のDataNodeにアップロードし、NameNodeがBlockコピーDを担当します.あるDataNodeが失敗した場合、クライアントは他のDataNode
  • に転送しません.
  • 以下のオプションは、HBAseの特性(ABCD)?A高信頼性B高性能Cの列D向け伸縮性
  • を正確に記述する.
  • 以下では、(D)A HDFSが分散型ストレージの問題を解決するB MapReduceである計算の問題を解決するC HBAseが大規模なデータセットD HBAseにリアルタイムでランダムにアクセス可能であることを示す.
  • Hadoopはどの言語で書かれた(C)A Scala B Erlang C Java D Python
  • 以下のどれがHadoopが実行するモードではないか(B).A単機版B埋め込み式C擬似分布式D完全分布式
  • Hadoop分散ファイルシステム(HDFS)は(AC)の特性を有する.A適合データバッチ処理Bデータ処理能力が極めて強いC最大化スループットDは、データへの移行E適合マルチスレッド問題 :
  • の計算を可能にする
  • HDFSシステムは主に(AB)2種類のノードを含む.AメタデータノードBデータノードCメタノードDサブノード
  • Hadoop Block Size修正可能かどうか(B)A不可B可
  • Zookeeperの役はどれらがありますか?(ABD) A Leader B Follower C QuorumPeerMain D Observer
  • 分布式計算jobを開発する際、reduce段階を取り除くことができるという説は(A)のAが正しいBエラー
  • である.
  • 次のコンポーネントのデフォルトポート番号を書き出し、対応する場所(各コンポーネントは1つのデフォルトポート番号のみ対応)(バージョンhadoop 2.6.0-CDH 5.12.4.2)a)HDFS Namenode UI:50070 b)ResourceManager UI:8088 c)fsに記入する.defaultFS:9000または8020
  • 二、簡単な答え(52点)
  • MapReduceでデータの傾きの問題が発生した原因と解決策は?(6点)
  • --  :   key    ,          
    --    :key       ,           ,     
    
  • Hadoop Shuffleの原理過程(詳細であればあるほど良い)(5点)
  • について説明してください.
    map          ,      ,       
    reduce  map          ,      
    

    詳細はリンクを参照:mapreduceプロシージャ解析
  • hdfs書き込みと読み取りの流れを簡単に説明します(6分)詳細はリンクを参照:hdfs読み書きの流れ
  • なぜhdfsは小さなファイルを保存するのに適していないのですか?(4点)
  •            ,         namenode        
    
  • hadoopの中のcombineの作用?(3点)
  •  map     ,      reduce,           ,        
    
  • hadoopに対するいくつかの理解(ヒント:Hadoopの概念、コンポーネント、役割の面から答えることができる)(5点)
  •   :            
      :hdfs-     ,mapreduce-       ,yarn-       ,commen-               
    
  • Hiveのチューニング方法(8点)詳細はリンク:hiveチューニング
  • を参照
  • スライスとパーティションの違い(2点)
  •   :                ,  map task      
      : reduce    ,    hash  
    
  • YarnのJobコミットプロセス(6分)詳細はリンクを参照:分散リソース管理yarn
  • Hiveの内部テーブルと外部テーブルの概念(4分)
  •    :     ,hive      ,hdfs           ,        
       :        hdfs  ,          ,      
    
  • HBAse行キーのホットな問題(3点)
  • を回避する方法
         ,  ,hash
    

    三、プログラミング問題(各問題7点、計21点)
  • MapReduceを利用してword countを実現するリンクを参照:MapReduce実現語周波数統計
  • 既存testテーブルのshop_id,item_id,num 3列HiveSQLを用いて計算したa,b列(ヒント:shop_idパケット、aはnum値/各グループnumの和、bはaのグループ内ソート)
  • shop_id
    item_id
    num
    a
    b
    A
    a
    10
    0.37
    2
    A
    b
    12
    0.44
    1
    B
    a
    8
    0.5
    1
    A
    c
    5
    0.19
    3
    B
    c
    8
    0.5
    1
    C
    b
    9
    1
    1
    With  t1 as(
    Select * ,sum(num) over(partition by shop_id) as s ,rank() over(partition by shop_id order by num desc ) as r from test)
    Select t1.shop_id ,t1.item_id,t1.num,t1.num/s as a,t1.r as b
    From t1; 
    
  • hiveを使用してnum列のsum値
  • を計算する
    item
    num
    sum
    A
    1,2,3,4
    B
    2,5,1
    Select item,num,sum(c)
    From test2 
    Lateral view explode(split(num,,)) tmp as c
    group by item,num;