sparkはHFSファイルを処理します.
16959 ワード
この部分の内容はほぼ完全参考です.http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html
1.ダミー分散
HFSディレクトリを作成
ps:他の問題はまだ解決されていません.なぜ三つのウェブサイトがあるのか分かりません.一つしか確認できません.http://localhost:50030/-Hadoop管理インターフェースhttp://localhost:50060/-Hadoop Task Tracker状態http://localhost:50070/-Hadoop DFS状態
ここに来てください.hadoopの擬似分布式はインストール済みです.
2.Spark HFS
以下はsparkによってHFSファイルを処理してspark-shell環境に入ることができます.
3.intellijで運転する
新しいscalaプロジェクトを作って、そしてScaScript sを新築して、test test.scala内容と名づけます.
1.ダミー分散
HP-Pavilion-g4-Notebook-PC:/usr/lib/hadoop-2.8.0$ sbin/start-dfs.sh
Starting namenodes on [localhost]
localhost: starting namenode, logging to /usr/lib/hadoop-2.8.0/logs/hadoop-yangxiaohuan-namenode-yangxiaohuan-HP-Pavilion-g4-Notebook-PC.out
localhost: starting datanode, logging to /usr/lib/hadoop-2.8.0/logs/hadoop-yangxiaohuan-datanode-yangxiaohuan-HP-Pavilion-g4-Notebook-PC.out
Starting secondary namenodes [0.0.0.0]
The authenticity of host '0.0.0.0 (0.0.0.0)' can't be established.
ECDSA key fingerprint is 7f:77:9e:35:fe:21:22:6f:dd:4c:20:27:16:d1:43:37.
Are you sure you want to continue connecting (yes/no)?
The authenticity of host'0.0.00(0.0.0.0)'can't be established.解決方法1:参照URL 1、直接ファイアウォールを閉じるufw disable
、この方法を使用していません.HP-Pavilion-g4-Notebook-PC:/usr/lib/hadoop-2.8.0$ ssh -o StrictHostKeyChecking=no 0.0.0.0
その後、ssh環境を終了し、直接exitでいいです.HP-Pavilion-g4-Notebook-PC:/usr/lib/hadoop-2.8.0$ sbin/start-dfs.sh
Starting namenodes on [localhost]
localhost: namenode running as process 6162. Stop it first.
localhost: datanode running as process 6319. Stop it first.
Starting secondary namenodes [0.0.0.0]
0.0.0.0: starting secondarynamenode, logging to /usr/lib/hadoop-2.8.0/logs/hadoop-username-secondarynamenode-username-HP-Pavilion-g4-Notebook-PC.out
local host:namenode running as process 6162.Stop it first.このようなエラーは主にサービスが正常に起動されていません.起動する前に、hadoopのすべてのサービスをオフにする必要があります.sbin/stop-all.sh
また起動して、入力してください.http://localhost:50070/内容が見えます.HFSディレクトリを作成
$ bin/hdfs dfs -mkdir /user
$ bin/hdfs dfs -mkdir /user/
ファイルを分散ファイルシステムにコピーします.$ bin/hdfs dfs -mkdir input
$ bin/hdfs dfs -put etc/hadoop/*.xml input
私はここでinputファイルディレクトリを作成する時、エラーメッセージを送りましたが、inputディレクトリがありません.コマンドbin/hdfs dfs-mkdir-p inputを使用してやっとOKの運転例です.HP-Pavilion-g4-Notebook-PC:/usr/lib/hadoop-2.8.0$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.0.jar grep input output 'dfs[a-z.]+'
そしてCopy the out put files from the distributed filesystem to the local filesystem and exmine the m:$ bin/hdfs dfs -get output output
$ cat output/*
ブラウザでアクセスhttp://localhost:50070/ hadoop疑似分布のインストールが完了した後、はまた、ファイルを見ることができます.ps:他の問題はまだ解決されていません.なぜ三つのウェブサイトがあるのか分かりません.一つしか確認できません.http://localhost:50030/-Hadoop管理インターフェースhttp://localhost:50060/-Hadoop Task Tracker状態http://localhost:50070/-Hadoop DFS状態
ここに来てください.hadoopの擬似分布式はインストール済みです.
2.Spark HFS
以下はsparkによってHFSファイルを処理してspark-shell環境に入ることができます.
~$ spark-shell
HFSファイルを読みだしますval s=sc.textFile("hdfs://localhost:9000//user/yangxiaohuan/input/capacity-scheduler.xml")
s.count
は、実行成功後の結果を見ることができる.ファイルが見つからないと、エラーが発生します.3.intellijで運転する
新しいscalaプロジェクトを作って、そしてScaScript sを新築して、test test.scala内容と名づけます.
import org.apache.spark.{SparkConf, SparkContext}
object test{
def main(args: Array[String]): Unit = {
val conf=new SparkConf();
conf.set("spark.master","local");
conf.set("spark.app.name","fileOperate");
val sc=new SparkContext(conf);
// HDFS
val textFileRdd=sc.textFile("hdfs://localhost:9000//user/yangxiaohuan/input/all_abstract_jian.txt");
println(textFileRdd.count())
}
}
build.sbtにlibraryDependencies+=「org.apphe.spark」%「spark-corega 2.11」%「2.10」を追加してjar File-Project Setting-Artfacts-」+「jar-form modules with dependcies」を使用してファイルを作成します../bin/spark-submit --name "nlp run on spark" --master spark://localhost:8080 --executor-memory 2G --class test /home/username/IntelliJ_IDEA_workspace/fileOperate/out/artifacts/fileoperate_jar/fileoperate.jar
ps:直接intellijの下にあるrunです.エラーを報告しました.まだ解決方法が分かりません.Exception in thread "main" java.lang.NoClassDefFoundError: scala/Product$class
at org.apache.spark.SparkConf$DeprecatedConfig.(SparkConf.scala:781)
at org.apache.spark.SparkConf$.(SparkConf.scala:632)
at org.apache.spark.SparkConf$.(SparkConf.scala)
at org.apache.spark.SparkConf.set(SparkConf.scala:92)
at org.apache.spark.SparkConf$$anonfun$loadFromSystemProperties$3.apply(SparkConf.scala:74)
at org.apache.spark.SparkConf$$anonfun$loadFromSystemProperties$3.apply(SparkConf.scala:73)
at scala.collection.TraversableLike$WithFilter.$anonfun$foreach$1(TraversableLike.scala:789)
at scala.collection.immutable.HashMap$HashMap1.foreach(HashMap.scala:225)
at scala.collection.immutable.HashMap$HashTrieMap.foreach(HashMap.scala:432)
at scala.collection.immutable.HashMap$HashTrieMap.foreach(HashMap.scala:432)
at scala.collection.TraversableLike$WithFilter.foreach(TraversableLike.scala:788)
at org.apache.spark.SparkConf.loadFromSystemProperties(SparkConf.scala:73)
at org.apache.spark.SparkConf.(SparkConf.scala:68)
at org.apache.spark.SparkConf.(SparkConf.scala:55)
at test$.main(test.scala:8)
at test.main(test.scala)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:498)
at com.intellij.rt.execution.application.AppMain.main(AppMain.java:147)
Caused by: java.lang.ClassNotFoundException: scala.Product$class
at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:331)
at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
... 21 more
完成したら、hadoopを閉じます.$ sbin/stop-dfs.sh
URL 1.http://blog.csdn.net/lglglgl/article/details/46867787 2.http://www.cnblogs.com/huanghongbo/p/6254400.html 3.Spark shellにおいて、HFSファイルシステムに基づいてwodcountインタラクティブ分析を行う.http://www.cnblogs.com/allanli/p/running_スパークshell_うむhdfs.4.公式サイトの命令参考http://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-common/FileSystemShell.html