hadoop(一)入門構成

3749 ワード

環境
本人が使っているのはXUbuntu 14です.04 64ビット、仮想マシンの下に構築された
  • JDKをインストールし、環境変数
  • を構成する
    classpathを構成し、すべてのユーザーの環境変数を変更
    sudo vim /etc/profile
    #        
    #set java environment
    export JAVA_HOME={path}
    export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
    export PATH=$PATH:$JAVA_HOME/bin 
    source/etc/profile  ##       
  • 配置SSH無パスワードか登録
  • ユーザーのルートディレクトリに非表示フォルダを作成します.ssh(作成する必要はありません)
    mkdir .ssh
    ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
    cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

    検証の下でssh、
     shh localhost
  • hadoop(2.7を使用)
  • をインストール
  • フォルダ
  • を解凍
    sudo tar -zxvf hadoop-2.7.1.tar.gz -C /usr/local/hadoop    #     ,             
  • hadooop作業に必要なファイルディレクトリ
  • を作成する
  • 環境変数($HADOOP_HOME/etc/hadoopに入る)
  • を設定
    sudo vim /etc/profile
    export HADOOP_HOME={path}
    #path      
    export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
  • プロファイル
  • hadoop-envを構成する.sh
  • export JAVA_HOME=${JAVA_HOME}          # JAVA_HOME JDK   
  • core-siteを配置する.xml(Hadoopコンフィギュレーション項目についての一点の説明はfs.defaultFSとdfs.replicationをコンフィギュレーションするだけで実行できますが(公式チュートリアルではそうです)ただし、hadoop.tmp.dirパラメータが構成されていない場合、デフォルトで使用される一時ディレクトリは/tmp/hadooo-hadoopです.このディレクトリは再起動時にシステムによってクリーンアップされる可能性があり、formatを再実行する必要があります.そのため、dfs.namenode.name.dirとdfs.datanode.data.dirも指定します.そうでなければ、次のステップでに表示されないことを示します.shayはホスト名で、自分のホスト名が分からない場合はcat/etc/hostname)
  • <configuration>
        <property>
            <name>hadoop.tmp.dir</name>
            <value>file:/usr/local/hadoop/tmp</value>
        </property>
        <property>
            <name>fs.defaultFS</name>
            <value>hdfs://shay:9000</value>
        </property>
    </configuration>
  • hdfs-siteを構成する.xml
  • <configuration>
        <property>
            <name>dfs.replication</name>
            <value>1</value>
        </property>
        <property>
            <name>dfs.namenode.name.dir</name>
            <value>file:/usr/local/hadoop/tmp/dfs/name</value>
        </property>
        <property>
            <name>dfs.datanode.data.dir</name>
            <value>file:/usr/local/hadoop/tmp/dfs/data</value>
        </property>
        <!--       ,       
        <property>
            <name>dfs.namenode.secondary.http-address</name>
            <value>shay:50090</value>
        </property>
        -->
    </configuration>
  • mapred-siteを構成する.xml 
  • <configuration>
        <property>        
            <name>mapreduce.framework.name</name>
             <value>yarn</value>
        </property>
    </configuration>
  • yarn-siteを配置する.xml
  • <configuration>
        <property>        
            <name>yarn.nodemanager.aux-services</name>        
            <value>mapreduce_shuffle</value>
        </property>
        <property>
            <name>yarn.resourcemanager.hostname</name>
            <value>shay</value>
        </property>
    </configuration>
  • yarn-envを構成する.sh
  • export JAVA_HOME=${JAVA_HOME}
  • Hadoop起動
  • namenodeフォーマット
  • を実行
    hdfs namenode -format
  • デーモンプロセスを開始
  • start-dfs.sh        # NameNode   DataNode     
    start-yarn.sh       # ResourceManager   NodeManager     
  • 検証
  • jps