【ビッグデータ】Macでhadoop-scala-sparkをインストール

4334 ワード


【ブログは既に移行しており、継続的な更新に注目してください:https://zorkelvll.cn/blogs/zorkelvll/articles/2018/11/02/1541172452468】
一、背景
最新のプロジェクト開発の過程で、大量の基礎データの変換に対して中間フィールドあるいは中間表を実現する必要があり、SQLを使ってデータの計算と処理を行い、往々にして大量の精力を費やしてSQLを書く必要があり、実現するのは不便で、R、Python、Matlab、Scalaなどがなくて実現するのは便利である.このような仕事の過程で出会った痛みの背景に基づいて、sparkを使ってデータのetl処理を行って直接結果表を生成することを提案する学生がいて、まず最終的な目標を実現できるかどうかにかかわらず、試してみないと実現できるかどうか分からないので、まず基礎的な環境を構築します.どのようにしてプロセスと環境を設計して「一労永逸」(ソフトウェア分野には一労永逸とは何もない)を実現するかについては、ゆっくりしましょう.
二、実践-環境設置
1、バージョン:
    jdk:1.8.0_161
    hadoop:3.0.0
2、hadoopのインストール
(1)ssh:ssh-keygen-t rsa=>ずっとenter=>cat~/を配置する.ssh/id_rsa.pub >> ~/.ssh/authorized_keys=>macがファイアウォールを閉じてリモートログインを開始したことを確認します(システムの好み設定:セキュリティとプライバシー=>ファイアウォールを閉じます;共有=>リモートログインフック)
(2)brewダウンロードインストールhadoop:brew install hadoop=>は、/usr/local/cellar/hadoop/3.0.0インストール済みhadoopの場所を表示できます
(3)hadoop-envを配置する.sh : vim/usr/local/Cellar/hadoop/3.0.0/libexec/etc/hadoop/hadoop-env.sh=>将
# export HADOOP_OPTS="-Djava.net.preferIPv4Stack=true -Dsun.security.krb5.debug=true -Dsun.security.spnego.debug"

後に追加
export HADOOP_OPTS="$HADOOP_OPTS -Djava.net.preferIPv4Stack=true -Djava.security.krb5.realm= -Djava.security.krb5.kdc="
export JAVA_HOME="/Library/Java/JavaVirtualMachines/jdk1.8.0_161.jdk/Contents/Home"

(4)core-siteを配置する.xml【hdfsアドレスとポート】:vim/usr/local/cellar/hadoop/3.0.0/libexec/etc/hadoop/core-site.xml=>構成の追加

  
     hadoop.tmp.dir
/usr/local/Cellar/hadoop/hdfs/tmp
    A base for other temporary directories.
  
  
     fs.default.name
     hdfs://localhost:8020
  

フォルダmkdir/usr/local/cellar/hadoop/hdfs&mkdir/usr/local/cellar/hadoop/hdfs/tmpを作成
(5)mapred-siteを配置する.xml【mapreduceとjobtrackerのアドレスとポート】:
バックアップ先:cp/usr/local/cellar/hadoop/3.0.0/libexec/etc/hadoop/mapred-site.xml mapred-site-bak.xml 
再編集:vim/usr/local/cellar/hadoop/3.0.0/libexec/etc/hadoop/mapred-site.xml=>構成の追加

      
        mapred.job.tracker
        localhost:8021
      

(6)hdfs-siteを配置する.xml【修正hdfsバックアップ数】:vim/usr/local/cellar/hadoop/3.0.0/libexec/etc/hadoop/hdfs-site.xml=>構成の追加

   
     dfs.replication
     1
    

(7)hdfsファイルシステムフォーマットのフォーマット:hdfs namenode-format
(8)hadoopサービスの起動と停止:
   /usr/local/Cellar/hadoop/3.0.0/libexec/start-dfs.sh=>デーモンプロセス:namenodes、datanodes、secondary namenodes、ブラウザアクセスhttp://localhost:9870、ポート番号は50070ではなく9870です.
   /usr/local/Cellar/hadoop/3.0.0/libexec/start-yarn.sh=>yarnサービスプロセス:resourcemanager、nodemanagers、ブラウザアクセスhttp://localhost:8088およびhttp://localhost:8042
   /usr/local/Cellar/hadoop/3.0.0/libexec/stop-yarn.sh
   /usr/local/Cellar/hadoop/3.0.0/libexec/stop-dfs.sh
3、scalaのインストール
brewダウンロードインストールscala:brew install scala=>は、/usr/local/cellar/scala/2.12.5存在またはscala-version表示バージョンを表示できます.
4、sparkを取り付ける
spark官网下载,下载时注意查看其需要依存的hadoop版本满足,下载后mac下直接用解凍软件解凍并将解凍後的ファイルmv到/usr/local下即/usr/local/spark-2.3.0-bin-hadoop 2.7
    cd /usr/local/spark-2.3.0-bin-hadoop2.7/bin & spark-shell
5、システム環境変数~/.bash_Profile、任意のディレクトリでコマンドを実行しやすい
    vim ~/.bash_プロファイル、追加
export HADOOP_HOME=/usr/local/Cellar/hadoop/3.0.0/libexec
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

export SCALA_HOME=/usr/local/Cellar/scala/2.12.5
export PATH=$PATH:$SCALA_HOME/bin

export SPARK_HOME=/usr/local/spark-2.3.0-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin

注意:brew方式でインストールされているhadoop 3.0.0、構成するhadoopパスはlibexecの下にあり、そうでない場合start-dfs.shコマンドは「error:cannot execute hdfs-config」とエラーを報告します.
6、日常起動クローズコマンド:
start-dfs.sh
start-yarn.sh
spark-shell
stop-yarn.sh
stop-dfs.sh

以上はhadoop-scala-sparkのmacの下でのインストールの过程で、昨日macの下で初めて実践するために、一度に成功します=>各位の学友に役に立つことを望んで、各位の学友の后ろの関心を得て、もし疑问あるいは出会った穴ならば、文章の下で伝言を歓迎します!!
 
sparkが開く道:https://spark.apache.org/docs/latest/quick-start.html