Windowsインストールpyspark(python版spark)
1122 ワード
pysparkをインストールするには、前の記事で紹介したような煩わしい手順は必要ありません.たった2歩でいい
Java/Jdkのインストール
過程は基本的に前編を参照して、cmdの下で
次のような正確な結果が得られるとよい.
java version "1.8.0_172"Java(TM) SE Runtime Environment (build 1.8.0_172-b11) Java HotSpot(TM) 64-Bit Server VM (build 25.172-b11, mixed mode)
pysparkのインストール
他のpythonパッケージのようにpipを直接インストールすればいいです
国内のネットワーク速度が遅すぎる場合は、ミラーを追加します.
検証#ケンショウ#
新しいバージョン以降のsparkはmlパッケージとDataset/DataFrameを推奨
+-------+ |sum(id)| +-------+ | 45.0| +-------+
Java/Jdkのインストール
過程は基本的に前編を参照して、cmdの下で
java -version
次のような正確な結果が得られるとよい.
java version "1.8.0_172"Java(TM) SE Runtime Environment (build 1.8.0_172-b11) Java HotSpot(TM) 64-Bit Server VM (build 25.172-b11, mixed mode)
pysparkのインストール
他のpythonパッケージのようにpipを直接インストールすればいいです
pip install -U pyspark
国内のネットワーク速度が遅すぎる場合は、ミラーを追加します.
pip install -U -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark
検証#ケンショウ#
新しいバージョン以降のsparkはmlパッケージとDataset/DataFrameを推奨
from pyspark.sql import SparkSession
from pyspark.sql.functions import col
#
spark = SparkSession.builder.master("local[*]").appName("FiratApp").getOrCreate()
# 0 9
# data = spark.createDataFrame(map(lambda x: (x,), range(10)), ["id"])
data = spark.range(0, 10).select(col("id").cast("double"))
#
data.agg({'id': 'sum'}).show()
#
spark.stop()
+-------+ |sum(id)| +-------+ | 45.0| +-------+