読書ノート-Hadoop実戦-6

3270 ワード

注:以前MapReduceプログラムを書いたことがありますので、HadoopとMapReduceのプログラムについていくつか知っています.今は「Hadoop実戦」という本を読んでいます.ここでは主に自分の役に立つ点をメモしています.本の中のすべてのポイントをカバーすることはできません.MapReduce入門を勉強したい方は、時間を無駄にしないように気をつけてください.
ここはいいと思ういくつかの入門文です.
http://www.cnblogs.com/forfuture1978/category/300670.html
http://blog.csdn.net/aidayei/article/details/6580277
http://www.cnblogs.com/mdyang/category/307547.html
http://www.cnblogs.com/wycg1984/category/238035.html
--------------------------------------------------------------------------------------------------------------------------------------------------------
 
ジョブにカスタマイズしたパラメータを渡す:
Configration類(JobConfの親類)は、一般的なsetter方法で属性値を設定し、属性はキーペアで記憶し、キーはSteringタイプであり、値は一般的なタイプの一つとすることができる.たとえば:
         myJobConf.set Int(「myjob.myproperty」、Integer.parseInt(args[2]);
使用時にこの値を取り出します.Mapper/Reducerのconfigur関数で
    public void configure(JobConf conf){ int v = conf.getInt(“myjob.myproperty”, 0); }
 
カスタムパラメータの取得に加えて、JobConfの他の構成情報を取得することができます.
 
複数の出力に分割:
MultileOutput Formatを継承し、関数を実現します.
protected String generation FileNameForKeyValue(K k,V v,String name);
これにより、各kvペアの結果を、その戻り値に対応する名前のファイルに書き込むことができます.
 
 
データベースを使う:
DBOutput Formatはデータベースにアクセスするためのキークラスです.driverでは出力フォーマットをこのクラスに設定します.設定はDBConfigrationで設定できます.
public static void congifureDB(JobConf job、String drive Class、String dbUrl、String user Name、String passwd);
書き込みの表とフィールドを指定し、DBOutput FormatのsetOutput方法:
public static void setOutput(JobConf job、String table Name、String...fieldNames);
 
DBOutput Formatを使って、出力キーをDBWritableインターフェースにします.このキーだけがデータベースに書き込まれます.分かりやすいです.writeとread関数はPreparedSttementとResultSetを使用してプログレッシブ化を実現しなければなりません.
 
 
興味のあるHadoopのいくつかのサブプロジェクト:
Pig:PigはHadoopベースの大規模なデータ分析プラットフォームです.SQL-LIKE言語はPig Latinといいます.言語のコンパイラはSQLクラスのデータ分析要求を最適化された一連のMapReduce演算に変換します.Pigは複雑な大容量データの並列計算のための簡単な操作とプログラミングインターフェースを提供する.http://www.cnblogs.com/skyme/archive/2012/06/04/2534876.html
 
Hive:hiveはHadoopベースのデータベースツールで、構造化されたデータファイルをデータベーステーブルにマッピングし、sqlクエリ機能を完全に提供し、sql文をMapReduceタスクに変換して実行することができます.学習コストが低いというメリットがあります.SQL文を通じて簡単なMapReduce統計を迅速に実現できます.専門的なMapReduceアプリケーションを開発する必要がなく、データ倉庫の統計分析にとても適しています.
 
ハマとマホ:
ハマは、搭乗、逆、特徴値、特徴ベクトル、および他のマトリックス演算を計算するためのマトリックス計算ソフトパッケージです.MahoustはHadoopに基づいて機械学習アルゴリズムを実現します.Na ve Bayes、k-meansクラスター、共同フィルタリングなどです.
 
-----------------------