sparkはHFSファイルを処理します.

16959 ワード

この部分の内容はほぼ完全参考です.http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html
1.ダミー分散
HP-Pavilion-g4-Notebook-PC:/usr/lib/hadoop-2.8.0$ sbin/start-dfs.sh
Starting namenodes on [localhost]
localhost: starting namenode, logging to /usr/lib/hadoop-2.8.0/logs/hadoop-yangxiaohuan-namenode-yangxiaohuan-HP-Pavilion-g4-Notebook-PC.out
localhost: starting datanode, logging to /usr/lib/hadoop-2.8.0/logs/hadoop-yangxiaohuan-datanode-yangxiaohuan-HP-Pavilion-g4-Notebook-PC.out
Starting secondary namenodes [0.0.0.0]
The authenticity of host '0.0.0.0 (0.0.0.0)' can't be established.
ECDSA key fingerprint is 7f:77:9e:35:fe:21:22:6f:dd:4c:20:27:16:d1:43:37.
Are you sure you want to continue connecting (yes/no)?
The authenticity of host'0.0.00(0.0.0.0)'can't be established.解決方法1:参照URL 1、直接ファイアウォールを閉じるufw disable、この方法を使用していません.
HP-Pavilion-g4-Notebook-PC:/usr/lib/hadoop-2.8.0$ ssh  -o StrictHostKeyChecking=no 0.0.0.0
その後、ssh環境を終了し、直接exitでいいです.
HP-Pavilion-g4-Notebook-PC:/usr/lib/hadoop-2.8.0$ sbin/start-dfs.sh
Starting namenodes on [localhost]
localhost: namenode running as process 6162. Stop it first.
localhost: datanode running as process 6319. Stop it first.
Starting secondary namenodes [0.0.0.0]
0.0.0.0: starting secondarynamenode, logging to /usr/lib/hadoop-2.8.0/logs/hadoop-username-secondarynamenode-username-HP-Pavilion-g4-Notebook-PC.out
local host:namenode running as process 6162.Stop it first.このようなエラーは主にサービスが正常に起動されていません.起動する前に、hadoopのすべてのサービスをオフにする必要があります.
sbin/stop-all.sh
また起動して、入力してください.http://localhost:50070/内容が見えます.
HFSディレクトリを作成
$ bin/hdfs dfs -mkdir /user
$ bin/hdfs dfs -mkdir /user/
ファイルを分散ファイルシステムにコピーします.
$ bin/hdfs dfs -mkdir input
$ bin/hdfs dfs -put etc/hadoop/*.xml input
私はここでinputファイルディレクトリを作成する時、エラーメッセージを送りましたが、inputディレクトリがありません.コマンドbin/hdfs dfs-mkdir-p inputを使用してやっとOKの運転例です.
HP-Pavilion-g4-Notebook-PC:/usr/lib/hadoop-2.8.0$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.0.jar grep input output 'dfs[a-z.]+'
そしてCopy the out put files from the distributed filesystem to the local filesystem and exmine the m:
$ bin/hdfs dfs -get output output
$ cat output/*
ブラウザでアクセスhttp://localhost:50070/ hadoop疑似分布のインストールが完了した後、spark处理HDFS文件_第1张图片はまた、ファイルspark处理HDFS文件_第2张图片を見ることができます.
ps:他の問題はまだ解決されていません.なぜ三つのウェブサイトがあるのか分かりません.一つしか確認できません.http://localhost:50030/-Hadoop管理インターフェースhttp://localhost:50060/-Hadoop Task Tracker状態http://localhost:50070/-Hadoop DFS状態
ここに来てください.hadoopの擬似分布式はインストール済みです.
2.Spark HFS
以下はsparkによってHFSファイルを処理してspark-shell環境に入ることができます.
~$ spark-shell
HFSファイルを読みだします
val s=sc.textFile("hdfs://localhost:9000//user/yangxiaohuan/input/capacity-scheduler.xml")
s.count
spark处理HDFS文件_第3张图片は、実行成功後の結果を見ることができる.ファイルが見つからないと、エラーが発生します.
3.intellijで運転する
新しいscalaプロジェクトを作って、そしてScaScript sを新築して、test test.scala内容と名づけます.
import org.apache.spark.{SparkConf, SparkContext}

object test{
  def main(args: Array[String]): Unit = {
    val conf=new SparkConf();
    conf.set("spark.master","local");
    conf.set("spark.app.name","fileOperate");
    val sc=new SparkContext(conf);
    //  HDFS  
    val textFileRdd=sc.textFile("hdfs://localhost:9000//user/yangxiaohuan/input/all_abstract_jian.txt");
    println(textFileRdd.count())

  }
}
build.sbtにlibraryDependencies+=「org.apphe.spark」%「spark-corega 2.11」%「2.10」を追加してjar File-Project Setting-Artfacts-」+「jar-form modules with dependcies」を使用してファイルを作成します.
./bin/spark-submit --name "nlp run on spark" --master spark://localhost:8080 --executor-memory 2G --class test /home/username/IntelliJ_IDEA_workspace/fileOperate/out/artifacts/fileoperate_jar/fileoperate.jar
ps:直接intellijの下にあるrunです.エラーを報告しました.まだ解決方法が分かりません.
Exception in thread "main" java.lang.NoClassDefFoundError: scala/Product$class
    at org.apache.spark.SparkConf$DeprecatedConfig.(SparkConf.scala:781)
    at org.apache.spark.SparkConf$.(SparkConf.scala:632)
    at org.apache.spark.SparkConf$.(SparkConf.scala)
    at org.apache.spark.SparkConf.set(SparkConf.scala:92)
    at org.apache.spark.SparkConf$$anonfun$loadFromSystemProperties$3.apply(SparkConf.scala:74)
	at org.apache.spark.SparkConf$$anonfun$loadFromSystemProperties$3.apply(SparkConf.scala:73)
    at scala.collection.TraversableLike$WithFilter.$anonfun$foreach$1(TraversableLike.scala:789)
    at scala.collection.immutable.HashMap$HashMap1.foreach(HashMap.scala:225)
    at scala.collection.immutable.HashMap$HashTrieMap.foreach(HashMap.scala:432)
    at scala.collection.immutable.HashMap$HashTrieMap.foreach(HashMap.scala:432)
    at scala.collection.TraversableLike$WithFilter.foreach(TraversableLike.scala:788)
    at org.apache.spark.SparkConf.loadFromSystemProperties(SparkConf.scala:73)
    at org.apache.spark.SparkConf.(SparkConf.scala:68)
    at org.apache.spark.SparkConf.(SparkConf.scala:55)
    at test$.main(test.scala:8)
    at test.main(test.scala)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at com.intellij.rt.execution.application.AppMain.main(AppMain.java:147)
Caused by: java.lang.ClassNotFoundException: scala.Product$class
    at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
    at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:331)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
    ... 21 more
完成したら、hadoopを閉じます.
$ sbin/stop-dfs.sh
URL 1.http://blog.csdn.net/lglglgl/article/details/46867787 2.http://www.cnblogs.com/huanghongbo/p/6254400.html 3.Spark shellにおいて、HFSファイルシステムに基づいてwodcountインタラクティブ分析を行う.http://www.cnblogs.com/allanli/p/running_スパークshell_うむhdfs.4.公式サイトの命令参考http://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-common/FileSystemShell.html