Sparkを使用してボストンの住宅価格予測モデルを作成
3988 ワード
インストール&セッション設定 !pip install pyspark==3.0.1 py4j==0.10.9
!pip install pyspark==3.0.1 py4j==0.10.9
from pyspark.sql import SparkSession
spark = SparkSession \
.builder \
.appName("Boston Housing Linear Regression example") \
.getOrCreate()
spark
data:image/s3,"s3://crabby-images/95bdd/95bdd4091b6118fe98d32b1dd11424176cd1838c" alt=""
ボストン住宅価格予測モデル
データの読み込み
!wget https://s3-geospatial.s3-us-west-2.amazonaws.com/boston_housing.csv
!wget https://s3-geospatial.s3-us-west-2.amazonaws.com/boston_housing.csv
!ls -tl
data:image/s3,"s3://crabby-images/c533a/c533abf4fa271e2bc77235183bed3a3e0835ab47" alt=""
data = spark.read.csv('./boston_housing.csv', header=True, inferSchema=True)
Sparkマウントdata.printSchema()
data:image/s3,"s3://crabby-images/483ef/483efe74a4dff9808b219eaa6e2d076cfbc4cdfe" alt=""
フィーチャーベクトルの作成
from pyspark.ml.feature import VectorAssembler
feature_columns = data.columns[:-1]
assembler = VectorAssembler(inputCols=feature_columns, outputCol="features")
data_2 = assembler.transform(data)
data:image/s3,"s3://crabby-images/5c53c/5c53c80c5094c2b7cd2e2b4c061af36f354a8183" alt=""
トレーニングおよびテスト用のデータテンプレートとリニア回帰モデルの作成
train, test = data_2.randomSplit([0.7, 0.3])
from pyspark.ml.regression import LinearRegression
algo = LinearRegression(featuresCol="features", labelCol="medv")
model = algo.fit(train)
Sparkからモデルのパフォーマンスの測定
evaluation_summary = model.evaluate(test)
evaluation_summary.meanAbsoluteError
3.497902588473653
evaluation_summary.rootMeanSquaredError
5.183455868492738
evaluation_summary.r2
0.6745318757463364
モデル予測の表示
predictions = model.transform(test)
predictions.show()
data:image/s3,"s3://crabby-images/70254/7025494a4664236fba51c12c6696fd3846111fbf" alt=""
学習モデルの保存
model.save("boston_housing_model")
!ls boston_housing_model
data metadata
!ls -tl boston_housing_model
data:image/s3,"s3://crabby-images/cd113/cd113a4b1fc8a869433ed7b1f7d221b7fd4bdf29" alt=""
from google.colab import drive
drive.mount('/content/gdrive')
model_save_name = "boston_housing_model"
path = F"/content/gdrive/My Drive/boston_housing_model2"
model.save(path)
保存したモデルの使用
from pyspark.ml.regression import LinearRegressionModel
loaded_model = LinearRegressionModel.load(path) # "boston_housing_model")
ストレージReference
この問題について(Sparkを使用してボストンの住宅価格予測モデルを作成), 我々は、より多くの情報をここで見つけました https://velog.io/@peterpictor/Spark-Spark를-이용한-보스턴-주택-가격-예측-모델-제작テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol