Sparkに基づく機械学習実践(三)-実戦環境構築
1618 ワード
0関連ソース
1 Spark環境インストール
◆Sparkはscala言語で作成され、多種の言語インタフェースを提供し、JVMを必要とする
◆公式にSparkコンパイルされたバージョンを提供しており、手動でコンパイルする必要はありません
◆Sparkの設置は難しくなく、配置に注意が必要であり、Hadoop環境が必ずしも必要ではないダウンロード 解凍
2 Spark構成
◆構成する前に、できるだけ公式文書を読んで、直接ネット上から構成教程を探さないようにする.
◆ノードに使用するメモリを設定しなければならない.そうしないと、ノードの利用率が低くなる可能性がある.
◆
公式サイトの設定アプリケーションデフォルト構成 プロファイル テンプレートを2つコピーし、自己構成 をオンにします.
スタンドアロン環境設定ローカルIP shell検証
3 Spark shell
◆Spark shellはbashスクリプトで、
◆Spark shellはコンテキストとセッションを事前に構成してくれました contextインスタンス セッションインスタンス UI
4実戦Wordcount
4.1 Wordcount概要
◆Wordcount語周波数統計は、ビッグデータ分析の中で最も基礎的なタスクである英語の分詞が容易で、スペースを直接分割すればよい.
◆実装構想まず文書中のすべての単語を抽出し、同じ単語をマージする実装概略図 プロジェクト構築 spark jarパッケージ を追加 jarパッケージをすべて選択し、まず左ボタンで最初を選択し、最後のshiftまで引いて、それから左ボタンで最後の1つで全選択を実現する. 新規クラス テストファイル 記述関数 実行成功 パッケージ これらの余分なjarパケット を除去する構築 jarパッケージをspark/binディレクトリの下に置くSpark-submitを使用して を実行
Sparkマシン学習実践シリーズ Sparkに基づく機械学習実践(一)-初識機械学習 Sparkに基づく機械学習実践(二)-初識MLlib Sparkに基づく機械学習実践(三)-実戦環境構築 転載先:https://juejin.im/post/5cac4cb15188251b2f3a41af
1 Spark環境インストール
◆Sparkはscala言語で作成され、多種の言語インタフェースを提供し、JVMを必要とする
◆公式にSparkコンパイルされたバージョンを提供しており、手動でコンパイルする必要はありません
◆Sparkの設置は難しくなく、配置に注意が必要であり、Hadoop環境が必ずしも必要ではない
tar zxvf spark-2.4.1-bin-hadoop2.7.tgz
2 Spark構成
◆構成する前に、できるだけ公式文書を読んで、直接ネット上から構成教程を探さないようにする.
◆ノードに使用するメモリを設定しなければならない.そうしないと、ノードの利用率が低くなる可能性がある.
◆
UnknownHostException
を避けるためにsparkのIPとポート番号の配置に注意する公式サイトの設定
スタンドアロン環境設定
bin/spark-shell
3 Spark shell
◆Spark shellはbashスクリプトで、
./bin
ディレクトリの下にあります.◆Spark shellはコンテキストとセッションを事前に構成してくれました
4実戦Wordcount
4.1 Wordcount概要
◆Wordcount語周波数統計は、ビッグデータ分析の中で最も基礎的なタスクである英語の分詞が容易で、スペースを直接分割すればよい.
◆実装構想まず文書中のすべての単語を抽出し、同じ単語をマージする
`pwd`/`ls |grep L`
Sparkマシン学習実践シリーズ