【Hbase】hbase基本概念とhbase shell常用コマンド用法

10422 ワード

［転自］
http://www.cnblogs.com/flying5/archive/2011/09/15/2178064.html
1.概要
HBAseは、googleの論文「bigtable:構造化データの分散ストレージシステム」に由来する分散型、カラム向けのオープンソースデータベースです.HBAseはGoogle Bigtableのオープンソース実装であり、Hadoop HDFSをファイルストレージシステムとして利用し、Hadoop MapReduceを利用してHBAseの大量のデータを処理し、Zookeeperを協同サービスとして利用している.
2.HBAseのテーブル構造
HBAseはテーブル形式でデータを格納します.表は行と列で構成されています.カラムは、いくつかのカラムファミリー/カラムクラスタ(column family)に分割されます.

上の図に示すように、key 1、key 2、key 3は3つの記録の唯一のrow key値であり、column-family 1、column-family 2、column-family 3は3つの列族であり、各列族の下にはいくつかの列が含まれている.例えばcolumn−family 1という列族の下には、column 1とcolumn 2という名前の2つの列が含まれており、t 1:abc、t 2:gdxdfはrow key 1とcolumn−family 1−column 1によって一意に決定されるセルcellである.このcellにはabcとgdxdfの2つのデータがある.2つの値のタイムスタンプは異なり、それぞれt 1,t 2であり、hbaseはリクエスト者に最新の時間の値を返します.
これらの名詞の具体的な意味は以下の通りである.
　　(1) Row Key
nosqlデータベースと同様にrow keyはレコードを取得するためのプライマリ・キーです.hbase tableのローにアクセスするには、次の3つの方法しかありません.
(1.1)単一row keyによるアクセス
(1.2)row keyのrangeを通過
(1.3)全表スキャン
Row key行キー(Row key)は任意の文字列(最大長64 KB、実際のアプリケーションでは通常10-100 bytes)であり、hbase内部ではrow keyはバイト配列として保存される.
格納する場合、データはRow keyの辞書順に並べて格納されます.keyを設計するときは、この特性を十分にソートして保存し、よく一緒に読むローを一緒に保存します.(位置依存性)
注意:
辞書順intソートの結果は,1,10100,11,12,13,14,15,16,17,18,19,2,20,21,...,9,91,92,93,94,95,96,97,98,99であった.整形の自然な順序を保つには、行キーを0で左に塗りつぶす必要があります.
行の1回の読み書きは原子操作です(1回の読み書きにかかわらず).この設計決定は、プログラムが同じローに対して同時更新操作を行う場合の動作をユーザに容易に理解させることができる.
(2)列族column family
hbaseテーブルの各カラムは、カラムファミリーに帰属します.カラムファミリーは、テーブルのschemaの一部(カラムではなく)であり、テーブルを使用する前に定義する必要があります.カラム名は、カラムファミリーを接頭辞として使用します.たとえばcourses:history、courses:mathはcoursesという列族に属します.
アクセス制御、ディスク、メモリの使用統計は、カラムファミリーレベルで行われます.実際のアプリケーションでは、カラムファミリーの制御権限は、異なるタイプのアプリケーションを管理するのに役立ちます.いくつかのアプリケーションでは、新しい基本データを追加できます.いくつかのアプリケーションでは、基本データを読み取り、継承されたカラムファミリーを作成できます.いくつかのアプリケーションでは、データの閲覧のみが許可されます(プライバシーのため、すべてのデータを閲覧できません).
(3)ユニットCell
HBAseでrowとcolumnsによって決定された貯蔵ユニットをcellと呼ぶ.{row key,column(=+)、version}によって一意に決定されるユニット.cellのデータはタイプがなく,すべてバイトコード形式で格納されている.
(4)タイムスタンプタイムスタンプ
各cellには同じデータの複数のバージョンが保存されています.バージョンはタイムスタンプでインデックスされます.タイムスタンプのタイプは64ビット整数です.タイムスタンプは、hbase(データの書き込み時に自動的に)によって割り当てられ、タイムスタンプはミリ秒までの現在のシステム時間です.タイムスタンプは、お客様が明示的に割り当てることもできます.アプリケーションがデータ・バージョンの競合を回避するには、独自のタイムスタンプを生成する必要があります.各cellでは、異なるバージョンのデータが時間逆順にソートされます.すなわち、最新のデータが一番前に表示されます.
hbaseは、データの過剰なバージョンによる管理(保存とインデックスを含む)の負担を回避するために、2つのデータバージョンの回収方法を提供します.1つは、データを保存する最後のnバージョン、2つは、最近の7日間など、最近のバージョンを保存することです.ユーザーは各カラムファミリーに対して設定できます.
3.HBAse shellの基本的な使い方
hbaseはshellの端末を提供してユーザーにインタラクティブにします.help getを実行すると、コマンドのヘルプ情報が表示されます.
hbaseの使い方を、ネット上の学生成績表の例で示します.

ここでgradは表にとって1つの列であり、courseは表にとって1つの列族であり、この列族は2つの列からmathとartを構成している.もちろん、courseにはcomputer、physicsなどの対応する列にcourse列族を追加する必要がある.図中で注意しなければならないのは90という値で、列族の下の列にも名前がなくてもいいです.
(1)1つのテーブルscoresが2つの列族gradとcoureseを有することを確立する

hbase(main):001:0> create 'scores','grade', 'course'
0 row(s) in 0.4780 seconds

(2)現在のHBAseに存在するテーブルの表示

hbase(main):002:0> list
TABLE                                                                                                                                                                                         
scores                                                                                                                                                                               
1 row(s) in 0.0270 seconds

(3)表の構造を見る

hbase(main):004:0> describe 'scores'
DESCRIPTION                                                 ENABLED                                               
 {NAME => 'scores', FAMILIES => [{NAME => 'course', BLOOMFILTER => 'NONE', REPLICATION_SCOPE => '0',  true                                                  
 COMPRESSION => 'NONE', VERSIONS => '3', TTL => '2147483647', BLOCKSIZE => '65536', IN_MEMORY => 'fal                                                       
 se', BLOCKCACHE => 'true'}, {NAME => 'grade', BLOOMFILTER => 'NONE', REPLICATION_SCOPE => '0', COMPR                                                       
 ESSION => 'NONE', VERSIONS => '3', TTL => '2147483647', BLOCKSIZE => '65536', IN_MEMORY => 'false',                                                        
 BLOCKCACHE => 'true'}]}                                                                                                                                    
1 row(s) in 0.0390 seconds

(4)zkb列ファミリーgradの列名「」値ビット5の行データを加える

hbase(main):006:0> put 'scores','zkb','grade:','5'       
0 row(s) in 0.0420 seconds

(5)zkb行のデータの列族courseにの列を追加する

hbase(main):007:0> put 'scores','zkb','course:math','97'
0 row(s) in 0.0270 seconds

(6)zkbという行のデータの列族courseにの列を追加する

hbase(main):008:0> put 'scores','zkb','course:art','87'
0 row(s) in 0.0260 seconds

(7)baoniu列ファミリーgradという行のデータを入れる.

hbase(main):009:0> put 'scores','baoniu','grade:','4'    
0 row(s) in 0.0260 seconds

(8)baoniuという行のデータの列族courseにの列を追加する

hbase(main):010:0> put 'scores','baoniu','course:math','89'
0 row(s) in 0.0270 seconds

(9)Jerry行のデータの列族courseにの列を追加する

hbase(main):011:0> put 'scores','baoniu','course:art','80'
0 row(s) in 0.0270 seconds

(10)scoresテーブルのzkbに関するデータの表示

hbase(main):012:0> get 'scores','zkb'
COLUMN                     CELL                                                                                                               
 course:art                              timestamp=1316100110921, value=87                                                                                  
 course:math                             timestamp=1316100025944, value=97                                                                                  
 grade:                                  timestamp=1316099975625, value=5                                                                                   
3 row(s) in 0.0480 seconds

(11)scoresテーブルのすべてのデータの表示
注:scanコマンドはstartrow、stoprowを指定して、scanの複数のrowをscanできます.たとえば、scan'user_test',{COLUMNS =>'info:username',LIMIT =>10, STARTROW => 'test',STOPROW=>'test2'}

hbase(main):013:0> scan 'scores'
ROW                        COLUMN+CELL                                                                                                        
 baoniu                                  column=course:art, timestamp=1316100293784, value=80                                                               
 baoniu                                  column=course:math, timestamp=1316100234410, value=89                                                              
 baoniu                                  column=grade:, timestamp=1316100178609, value=4                                                                    
 zkb                                     column=course:art, timestamp=1316100110921, value=87                                                               
 zkb                                     column=course:math, timestamp=1316100025944, value=97                                                              
 zkb                                     column=grade:, timestamp=1316099975625, value=5                                                                    
2 row(s) in 0.0470 seconds

(12)scoresテーブル内のすべてのデータcourses列ファミリーのすべてのデータを表示しますか?

hbase(main):017:0> scan 'scores',{COLUMNS => 'course'}
ROW                        COLUMN+CELL                                                                                                        
 baoniu                                  column=course:art, timestamp=1316100293784, value=80                                                               
 baoniu                                  column=course:math, timestamp=1316100234410, value=89                                                              
 zkb                                     column=course:art, timestamp=1316100110921, value=87                                                               
 zkb                                     column=course:math, timestamp=1316100025944, value=97                                                              
2 row(s) in 0.0350 seconds

(13)scoresテーブルの削除

hbase(main):024:0> disable 'scores'
0 row(s) in 0.0330 seconds
 
hbase(main):025:0> drop 'scores'   
0 row(s) in 1.0840 seconds

まとめると、hbase shellでよく使われる操作コマンドはcreate、describe、disable、drop、list、scan、put、get、delete、deleteall、count、statusなどがあり、helpで詳細な使い方が見られます.

SQL--DDL言語の識別列

面接-mysqlインデックス