Tachyonの配置と使用マニュアル

3354 ワード

Tachyonの配置と使用マニュアル
Tachyon美[tコミュニティki:ˌɒn)
インストール
1、現在tachyonの最新バージョンは0.8.2で、目標のsparkバージョンは1.6で、着きます。http://tachyon-project.org/documentation/v0.8.2/Running-Spark-on-Tachyon.htmlページは必要なバージョンを調べて、sparkによって適当なバージョンのtachyonを選択します。2、現在のグループ内のsparkプログラムはyarn管理を通じてhadoopクラスタに提出して運行していますので、hadoopバージョンに基づいて適切なtachyonコンパイルバージョンを選択して、0.7.1バージョンのtachyonを例にして、ページに適切なパッケージを選択してダウンロードします。https://github.com/amplab/tachyon/releases/tag/v0.7.1。
Tachyon配置
参照:IBMブログtachyonクラスタは、オフィシャルプロファイルzookeeperの設定hadoopクラスタ関連構成を構成します。
主な配置は以下の通りです。
  • java Path:export JAVA_HOME=/usr/local/jdk-1.70_65
  • hadoopパス(ファイルの持続的な順序化の位置):export TACHYON_UNDERFS_ADDRESS=hdfs://ip:900
  • メモリサイズ:export TACHYON_WORKER_MEMORY_SIZE=15 GB
  • ログパスとzookeeperパス:TACHYON_JAVA_OPTTSに-Dtachyon.master.jurnal.folder=hdfs://ip:9000/tachyon/journal -Dtachyon.usezookeeper=true-Dtachyon.zookeeper.address=local host:2181
  • ファイルシステムの権限:hadoopとローカル関連ディレクトリの権限は777に設定され、他のユーザはsparkプログラムを実行する時にtachyon
  • を正しく使うことができます。
    その他の設定
    会社の本体は登録ポートを変更しましたが、Tachyonは登録ポートの設定を変更することができませんので、sshプロファイルhackを利用してこの問題を解決するしかありません。ssh confを参照してください。
    Tachyonクラスタ管理
  • ./bin/tachyon formatフォーマット記憶
  • ./bin/tachyon-start.sh all Mount起動Tachyonクラスタ
  • 起動後はhttp://localhost:19999/homeTachyonの管理画面を見て、ファイル管理のオプションでメモリのファイルの内容を直接見ることができます。
  • ./bin/tachyon-stop.sh停止Tachyonクラスタ
  • 注意Tachyonクラスタを停止するとメモリ内のファイルが失われます。ファイルをHFSに順番に並べて保存する必要があります。
    sparkでの配置と使用
    sparkで使用する場合は、2つの構成を変更する必要があります。
  • spark-defaults.com nfにspark.tachyon Store.urlを追加します。tachyon://localhost:19998
  • spark-env.shにexport SPARKを追加しました。CLASSPATH=base/./lib/tachyon−client−0.7.1−jar−with−dependencies.jar:SPARK_CLASSPATH
  • spark shellを起動して、先に文を実行して、sc.hadoopConfigration.set(「fs.tachyon.impl」、「tachyon.hadoop.TFS」)、その後正常に操作できます。val c=sc.textFile("tachyon://localhost:19998/hahaha2」)
    Tachyon技術の背景
    Tachyon          ,          ,                           。Tachyon  lineage      ,        (checkpoint)                    。     ,Tachyon      in-memory hbase 110 ,            4   。Tachyon                、    。
    
                   ,                       ,               IO。       ,  IO        cache   ,                cache       read  ,   write        ,               ,   write                     ,                                 (     )           ,            cache      。
    
     Tachyon   in-memory     ,             ,    linage  (                         )    replicate                        。
    
     lineage                     ,  spark,                         :  ,          。                lineage,           ,            ,                   ,      。        spark    MapReduce       ,                Job        ,               :              。        Spark-streaming,Spark-streaming           ,            checkpoint,          (  RDD)      。                    ,                        、   ,                    checkpoint。
    
                     。              recomputation                job     ,                      。
    
            ,Tachyon         checkpoint file。        ,Tachyon       Edge algorithm   ,                 ,               。
    
            ,Tachyon            (strict priority   weighted fair sharing),                 。    :                     ,                            ,                          ,  Tachyon                   (     )。