SPARKローカルモード構築とテスト

5089 ワード

転載説明の出典
[email protected]
 
Sparkは多種の運行モードをサポートする:
分散配置:Closterクラスタで実行され、最下位のリソーススケジューリングではMesosまたはHadoop YARN、Spark独自のStandaloneモードを使用できます.
擬似分散配置
ローカルモード運転
入門の便利さと個人学習のコストを考慮するために(ノートパソコンのリソースは限られています!!)、本編では、localモードでSparkを実行する方法について説明します.
 
NO.1資源準備
1、  VMware10.0.1 build-1379776(私はネットの下から、教程は度娘あるいは谷先生に聞きます)
2、  CentOS6.5(アドレスをあげて、上の資源はまだそろっています)
3、  JDK1.7(CentOSが持っているのはOPENJDKですが、正規軍の方がいいのはわかりますが)
4、spark-0.9.0-incubating-bin-hadoop 2(私が採用したのは0.9.0バージョン---当時の最高バージョンで、今は1.0になっていますが、研究なら最新バージョンをアドレスに置くことができることをお勧めします)
 
NO.2環境構築
1、VMwareのインストール
2、CentOSをインストールする—ブリッジモードを採用することを提案して、便利で安心して、後期ftp、sshをするのはすべて便利でたまらない
3、JDK 1を取り付ける.7、インストール後、必ず環境変数を設定してください.そうしないと、持参したOPENJDKを使用します.
4、spark-0.9.0-incubating-bin-hadoop 2.tgzはlinux環境にアップロードされました
 
NO.3 SPARKフレームワーク環境
1、解凍:tar–xvf spark-0.9.0-incubating-bin-hadoop 2.tgz
2、SPARKのホームディレクトリにジャンプ:cd spark-0.9.0-incubating-bin-hadoop 2
3、sbtコマンドを実行する:./sbt/sbt assembly(ネットが速い[我が家10 M光ファイバ]なら30分ほどで完成)
4、hostsファイルの修正、例えばvi/etc/hostsに192.168.1..53 CentOSを加える
5、OK以上のコマンドを実行すると、私たちのSPARKはローカルで実行できます.
NO.4環境検証
1、~/spark-0.9.0-incubating-bin-hadoop 2/binディレクトリに入る
 
36 [root@CentOS bin]# ./spark-shell 
37 14/06/08 06:27:47 INFO HttpServer: Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties 
38 14/06/08 06:27:47 INFO HttpServer: Starting HTTP Server 
39 Welcome to 
40 ____ __ 
41 / __/__ ___ _____/ /__ 
42 _\ \/ _ \/ _ `/ __/ '_/ 
43 /___/ .__/\_,_/_/ /_/\_\ version 0.9.0 
44 /_/ 
45 
46 Using Scala version 2.10.3 (Java HotSpot(TM) Client VM, Java 1.7.0_51) 
47 Type in expressions to have them evaluated. 
48 Type :help for more information. 
49 14/06/08 06:27:51 INFO Slf4jLogger: Slf4jLogger started 
50 14/06/08 06:27:51 INFO Remoting: Starting remoting 
51 14/06/08 06:27:51 INFO Remoting: Remoting started; listening on addresses :[akka.tcp://spark@CentOS:38659] 
52 14/06/08 06:27:51 INFO Remoting: Remoting now listens on addresses: [akka.tcp://spark@CentOS:38659] 
53 14/06/08 06:27:51 INFO SparkEnv: Registering BlockManagerMaster 
54 14/06/08 06:27:51 INFO DiskBlockManager: Created local directory at /tmp/spark-local-20140608062751-301e 
55 14/06/08 06:27:51 INFO MemoryStore: MemoryStore started with capacity 297.0 MB. 
56 14/06/08 06:27:51 INFO ConnectionManager: Bound socket to port 55885 with id = ConnectionManagerId(CentOS,55885) 
57 14/06/08 06:27:51 INFO BlockManagerMaster: Trying to register BlockManager 
58 14/06/08 06:27:51 INFO BlockManagerMasterActor$BlockManagerInfo: Registering block manager CentOS:55885 with 297.0 MB RAM 
59 14/06/08 06:27:51 INFO BlockManagerMaster: Registered BlockManager 
60 14/06/08 06:27:51 INFO HttpServer: Starting HTTP Server 
61 14/06/08 06:27:51 INFO HttpBroadcast: Broadcast server started at http://192.168.1.53:47324 
62 14/06/08 06:27:51 INFO SparkEnv: Registering MapOutputTracker 
63 14/06/08 06:27:51 INFO HttpFileServer: HTTP File server directory is /tmp/spark-d4a4b013-6a2c-4bb2-b3e6-f680cec875e7 
64 14/06/08 06:27:51 INFO HttpServer: Starting HTTP Server 
65 14/06/08 06:27:52 INFO SparkUI: Started Spark Web UI at http://CentOS:4040 
66 14/06/08 06:27:53 INFO Executor: Using REPL class URI: http://192.168.1.53:38442 
67 14/06/08 06:27:54 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 
68 Created spark context.. 
69 Spark context available as sc. 
70 
71 scala> println("hello,World!!") 
72 hello,World!!

 
 
NO.5 DEMO検証
 
1 [root@CentOS bin]# ./run-example org.apache.spark.examples.SparkLR local[2] 
2 SLF4J: Class path contains multiple SLF4J bindings. 
3 SLF4J: Found binding in [jar:file:/root/spark-0.9.0-incubating-bin-hadoop2/examples/target/scala-2.10/spark-examples_2.10-assembly-0.9.0-incubating.jar!/org/slf4j/impl/StaticLoggerBinder.class] 
4 ....................... ................... 
5 4883 [spark-akka.actor.default-dispatcher-4] INFO org.apache.spark.scheduler.DAGScheduler - Completed ResultTask(4, 0) 
6 4883 [spark-akka.actor.default-dispatcher-4] INFO org.apache.spark.scheduler.DAGScheduler - Stage 4 (reduce at SparkLR.scala:64) finished in 0.075 s 
7 4884 [main] INFO org.apache.spark.SparkContext - Job finished: reduce at SparkLR.scala:64, took 0.098657134 s 
8 Final w: (5816.075967498865, 5222.008066011391, 5754.751978607454, 3853.1772062206846, 5593.565827145932, 5282.387874201054, 3662.9216051953435, 4890.78210340607, 4223.371512250292, 5767.368579668863) 
9 [root@CentOS bin]#