HIVE学習と実践(一):基本命令

3128 ワード

データベース関連データマイニング

いくつかの概念(自己理解)
従来の従来のリレーショナル・ベースのデータベースは、単一のサーバに構築されており、ユーザーがアクセスできる範囲と能力が制限されています.データベースがますます大きくなると、1つのテーブルがいくつかの物理的に分離されたサーバに格納される可能性があります.このような膨大なデータを統合するにはhadoop分散ファイルシステム(HDFS)がある.
ファイルシステムがあれば、ユーザーが便利で効率的にアクセスできるようにするにはどうすればいいですか?Hiveは、従来のデータベースに適用されていたSQL文と互換性があり、下位レベルのAPI問題に関心を持たずに、Hiveクエリー言語(HiveQLまたはHQL)を簡単に切り替えることができます.ヤフーにはPigという案もあり、hadoopシステムも操作できます.ビッグデータについては、HadoopとApache Sparkの2つの名前に慣れていないと信じています.しかし、私たちは往々にしてそれらの理解を字面に残しているだけで、それらについて深く考えていません.次に、私と一緒にそれらがいったい何なのかを見てみましょう.
HadoopとApache Spark
問題を解決するレベルが違う
まず,両者ともビッグデータフレームワークであるが,それぞれの目的は異なる.Hadoopは実質的に分散型データインフラストラクチャです.これは、一般的なコンピュータからなるクラスタ内の複数のノードに大きなデータセットを割り当ててストレージします.これは、高価なサーバハードウェアの購入とメンテナンスが不要であることを意味します.
同時に、Hadoopはこれらのデータをインデックスして追跡し、ビッグデータの処理と分析効率をこれまでにない高さに達させます.Sparkは、分散型に格納された大きなデータを処理するためのツールであり、分散型データの格納は行われません.
両者は一致して分けることができる.
Hadoopは、HDFS分散型データストレージ機能に加えて、MapReduceというデータ処理機能も提供しています.ここではSparkを捨ててHadoop自身のMapReduceを使ってデータの処理を完了することができます.
逆にSparkもHadoopに頼らなければ生きられないわけではない.しかし、上述したように、ファイル管理システムは提供されていないため、他の分散ファイルシステムと統合して動作する必要があります.ここではHadoopのHDFSを選択したり、クラウドベースの他のデータシステムプラットフォームを選択したりすることができます.しかし、SparkはデフォルトではHadoopに使われています.結局、それらの結合が一番だと思っています.
以下は天地会珠海分舵がネットから抜粋したMapReduceに対する最も簡潔明瞭な解析である.
図書館のすべての本を数えなければなりません.あなたは1番の本棚を数えて、私は2番の本棚を数えます.これが「Map」です.私たち人が多ければ多いほど、本を数えるのがもっと速いです.
今私たちは一緒に来て、すべての人の統計数を加えます.これが「Reduce」です.
Sparkデータ処理速度秒殺MapReduce
Sparkはデータの扱い方が違うので、MapReduceよりずっと速くなります.MapReduceは,ステップごとにデータを処理する:「クラスタからデータを読み出し,1回の処理を行い,結果をクラスタに書き,クラスタから更新されたデータを読み出し,次の処理を行い,結果をクラスタに書くなど…"Booz Allen Hamiltonのデータ科学者Kirk Borneは解析する.
反対にSparkは、メモリの中で「リアルタイム」に近い時間ですべてのデータ分析を完了します.「クラスタからデータを読み取り、必要なすべての分析処理を完了し、結果をクラスタに書き戻し、完了します」とBorn氏は述べています.Sparkのバッチ処理速度はMapReduceより10倍近く速く、メモリ内のデータ分析速度は100倍近く速い.
処理が必要なデータと結果の需要がほとんど静的であり、バッチの完了を辛抱強く待つ場合、MapReduceの処理方法も完全に受け入れられます.
しかし、工場からのセンサが収集したデータや、多重データ処理が必要なアプリケーションなど、対流データの分析が必要な場合は、Sparkを使用して処理すべきかもしれません.
ほとんどの機械学習アルゴリズムは多重データ処理を必要とする.また、通常Sparkの応用シーンには、リアルタイムの市場活動、オンライン製品推薦、サイバーセキュリティ分析、機械日記監視などがあります.
災害復旧
両者の災害復旧方法は異なるが、いずれも優れている.Hadoopは、処理するたびにデータをディスクに書き込むので、システムエラーを弾力的に処理することができます.
Sparkのデータオブジェクトは、データクラスタに分散されたフレキシブル分散データセット(RDD:Resilient Distributed Dataset)と呼ばれるものに格納される.「これらのデータ・オブジェクトはメモリにもディスクにも格納できるので、RDDも災害復旧機能を完了させることができます」とBorne氏は指摘しています.
共通コマンド(更新されます)
hiveが入ってから

#       database；
show databases;
#     database
use XXXXX;

XXXが入ってから、表の情报を见ることができて、相応のを探します

#     tables
show tables；
#   TTTT        
desc formatted TTTT；
#   count
select count（*） from TTTT;
#      aaa table
show tables 'aaa*';

やってみるだけだ

仮想マシンに独自のプロジェクトを導入するにはどうすればいいですか?

ZOJ 267601点数計画最小割