Windowsインストールpyspark(python版spark)

1122 ワード

pysparkをインストールするには、前の記事で紹介したような煩わしい手順は必要ありません.たった2歩でいい
Java/Jdkのインストール
過程は基本的に前編を参照して、cmdの下で
java -version

次のような正確な結果が得られるとよい.
java version "1.8.0_172"Java(TM) SE Runtime Environment (build 1.8.0_172-b11) Java HotSpot(TM) 64-Bit Server VM (build 25.172-b11, mixed mode)
pysparkのインストール
他のpythonパッケージのようにpipを直接インストールすればいいです
pip install -U pyspark

国内のネットワーク速度が遅すぎる場合は、ミラーを追加します.
pip install -U -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark

検証#ケンショウ#
新しいバージョン以降のsparkはmlパッケージとDataset/DataFrameを推奨
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

#    
spark = SparkSession.builder.master("local[*]").appName("FiratApp").getOrCreate()

#          0 9   
# data = spark.createDataFrame(map(lambda x: (x,), range(10)), ["id"])
data = spark.range(0, 10).select(col("id").cast("double"))

#   
data.agg({'id': 'sum'}).show()

#   
spark.stop()

+-------+ |sum(id)| +-------+ |   45.0| +-------+