Sparkに基づく機械学習実践(三)-実戦環境構築

1618 ワード

0関連ソース
1 Spark環境インストール
◆Sparkはscala言語で作成され、多種の言語インタフェースを提供し、JVMを必要とする
◆公式にSparkコンパイルされたバージョンを提供しており、手動でコンパイルする必要はありません
◆Sparkの設置は難しくなく、配置に注意が必要であり、Hadoop環境が必ずしも必要ではない
  • ダウンロード
  • 解凍
  • tar zxvf spark-2.4.1-bin-hadoop2.7.tgz
    

    2 Spark構成
    ◆構成する前に、できるだけ公式文書を読んで、直接ネット上から構成教程を探さないようにする.
    ◆ノードに使用するメモリを設定しなければならない.そうしないと、ノードの利用率が低くなる可能性がある.
    UnknownHostExceptionを避けるためにsparkのIPとポート番号の配置に注意する
    公式サイトの設定
  • アプリケーションデフォルト構成
  • プロファイル
  • テンプレートを2つコピーし、自己構成
  • をオンにします.
    スタンドアロン環境設定
  • ローカルIP
  • shell検証
    bin/spark-shell
    

    3 Spark shell
    ◆Spark shellはbashスクリプトで、./binディレクトリの下にあります.
    ◆Spark shellはコンテキストとセッションを事前に構成してくれました
  • contextインスタンス
  • セッションインスタンス
  • UI

  • 4実戦Wordcount
    4.1 Wordcount概要
    ◆Wordcount語周波数統計は、ビッグデータ分析の中で最も基礎的なタスクである英語の分詞が容易で、スペースを直接分割すればよい.
    ◆実装構想まず文書中のすべての単語を抽出し、同じ単語をマージする
  • 実装概略図
  • プロジェクト構築
  • spark jarパッケージ
  • を追加
  • jarパッケージをすべて選択し、まず左ボタンで最初を選択し、最後のshiftまで引いて、それから左ボタンで最後の1つで全選択を実現する.
  • 新規クラス
  • テストファイル
  • `pwd`/`ls |grep L`
    
  • 記述関数
  • 実行成功
  • パッケージ
  • これらの余分なjarパケット
  • を除去する
  • 構築
  • jarパッケージをspark/binディレクトリの下に置くSpark-submitを使用して
  • を実行
    Sparkマシン学習実践シリーズ
  • Sparkに基づく機械学習実践(一)-初識機械学習
  • Sparkに基づく機械学習実践(二)-初識MLlib
  • Sparkに基づく機械学習実践(三)-実戦環境構築
  • 転載先:https://juejin.im/post/5cac4cb15188251b2f3a41af