Pycharm上のspark関連環境の構成


Sparkの依存環境は比較的多く,Java JDK,hadoopのサポートが必要である.spark自体はscalaで実現されているのでscalaの使用を推奨します.scala言語を使用する場合は、Scala 2が必要です.11.xバージョン、hadoopは2.6以上のバージョンをインストールすることが望ましい.
Scala2.11.xインストール
公式サイト:https://www.scala-lang.org/download/
Scalaを入手したmsiファイルをダウンロードすると、ダブルクリックでインストールを実行できます.インストールに成功すると、デフォルトではScalaのbinディレクトリがPATHシステム変数に追加されます.
Sparkの取り付け
公式サイト:http://spark.apache.org/downloads.html
Pre-builtのバージョンを使用しています.コンパイル済みという意味です.ダウンロードしてそのまま使えばいいです.Sparkにもソースコードがありますが、自分で手動でコンパイルしてから使用し、Sparkのbinディレクトリをシステム変数PATHに追加します.
HADOOPインストール
公式サイト:https://archive.apache.org/dist/hadoop/common/
HADOOP_が追加されましたHOMEシステム変数は、%HADOOP_HOME%\binでbinフォルダパス名を指定することもできます.この2つのシステム変数が設定されたら、新しいcmdを開き、spark-shellコマンドを直接入力します.
pycharm構成
1、pycharmを開き、progectを作成し、run configurationを設定し、環境変数にHADOOP_を追加するHOME,SPARK_HOMEとPYTHONPATH
2、pysparkとpy 4 jのインストール
Py 4 jは、pythonインタプリタで実行されるpythonプログラムをjava仮想マシンのjavaオブジェクトに動的にアクセスさせることができる.Py 4 jはjavaプログラムをpythonオブジェクトにコールバックさせることもできます. 
試験手順:
import os
import sys

# Path for spark source folder
os.environ['SPARK_HOME']="E:\spark-2.3.2-bin-hadoop2.7"

# Append pyspark to Python Path
sys.path.append("E:\spark-2.3.2-bin-hadoop2.7\python")

try:
from pyspark import SparkContext
from pyspark import SparkConf

print ("Successfully imported Spark Modules")

except ImportError as e:
print ("Can not import Spark Modules", e)
sys.exit(1)

インストール中に発生した問題:
1、Hadoopのインストール中にwinutilsが欠けている.exeの問題
自身のダウンロードするHadoopバージョンに応じて関連するwinutilsをダウンロードする.exeと.dllファイル
2、pysparkライブラリをインストールしてもpysparkライブラリが見つからないという問題が発生する
perferencesのプロジェクトstructureで右側の「add content root」をクリックし、py 4 j-some-versionを追加します.zipとpyspark.zipのパス(両方のファイルはSparkのpythonフォルダの下にあります)