HUEの簡単な紹介


私の独立ブログへようこそ。http://blog.ywheel.cn/post/2016/05/29/hue_introduction/
この間同僚たちにHUE入門のための訓練をしました。ついでに整理しました。本論文ではまず、HUEを簡単に紹介し、HUEにどのようにコードを貢献するかを紹介します。
HUEは何ですか
HUE=Hadoop User Experience
Hueは、オープンソースのApache Hadoop UIシステムであり、Clouder a Desktopによって進化し、最後にClouder社がApache基金会のHadoopコミュニティに貢献し、PythonウェブフレームDjangoに基づいて実現した。
Hueを使用することによって、ブラウザ端のWebコンソール上でHadoopクラスタと相互作用してデータを分析し、例えばHFS上のデータを操作し、MapReduce Jobを実行し、HiveのSQL文を実行し、HBaseデータベースを閲覧するなどの処理ができます。
HUEリンク
  • Site:http://gethue.com/
  • Github:https://github.com/cloudera/hue
  • Review:https://review.cloudera.org
  • コア機能
  • SQLエディタ、Hive、Impala、MySQL、Oracle、PostgreSQL、SparkSQL、Solr SQL、Phoenix…
  • 検索エンジンSolrの各種グラフ
  • SparkとHadoopの友好インターフェースは
  • を支持します。
  • は、スケジューリングシステムApache Oozeをサポートしています。workflowの編集、閲覧ができます。
    HUEが提供するこれらの機能は、Hadoop生態の各コンポーネントが提供するインターフェースよりも友好的であるが、いくつかのdebugを必要とするシーンは、元システムを使用してこそ、誤りの原因をより深く見つけることができるかもしれない。
    HUEではOozie workflowを見る時にも、workflowのDAG図を簡単に見ることができますが、最新バージョンではDAG図を削除しました。workflowの中のactionリストと彼らの間のジャンプ関係しか見られません。DAG図を見たいのですが、まだoozieの元の画面システムを使って見ることができます。
    HUE登録
    自分でHUEを作ったら、管理者アカウントを使って新しいユーザを作成して、新しいユーザを使ってログインして、下の図を参照してください。
    HUE公式サイトのライブデモを使ってみてください。もしみんなが自分で大きなデータプラットフォームを作っていないなら、HUEをインストールしていないなら、そのデモで試してもいいです。Play with the Live Demo nowをクリックしてください。HUEの「私の文書」に入ります。
    HFSファイルブラウズ
    HUEは、HFS内のディレクトリやファイルを簡単に閲覧し、ファイルやディレクトリの作成、コピー、削除、ダウンロード、および権限変更などの操作を行うことができる。
    HFSはPOSIXシステムと同様のファイルとディレクトリの権限モデルを実現した。各ファイルとディレクトリには所有者とグループがあります。ファイルまたはディレクトリは、所有者、同じグループの他のユーザ、および他のすべてのユーザにそれぞれ異なる権限を持っています。しかし、ユーザ識別機構は、HFS自体にとっては外部の特性にすぎない。HFSは、ユーザIDの作成、グループの作成、またはユーザ証明書の処理などの機能を提供していません。HUEを使用してHFSにアクセスする場合、HUE上のユーザ名とグループ名を簡単に権限のチェックを行います。
    Live Demoで「ファイルブラウザ」をクリックして、HFSのホームディレクトリに入ります。
    PS:Live Demoではファイルアップロード機能が禁止されています。
    ジョブ一覧
    Job Browserをクリックすると、作業リストが表示され、右上の「成功」をクリックすることで、「実行中」、「失敗」、「停止」をクリックして、異なる状態の作業をフィルタすることができます。
    実際の作業では、クラスタ(CDH 5.2)がHAを配置した後、activeのResource Managerが自動的に切り替わった後(例えばNN 1上のResource Managerがactiveであり、NN 2はstandbyであり、NN 1が故障した場合、NN 2上のResource Managerがactive状態に変わります)、HUEのjobrowserが正しく表示されなくなります。故障を修復した後、NN 1上のResource Managerをactive状態に変えてこそ、HUEのjob browserが正常に動作します。この問題は後のバージョンで修復されたかどうかは分かりません。
    検索
    HUEのbeeswax apは友好的で便利なHiveクエリ機能を提供しています。異なるHQL文を作成し、クエリタスクを提出して、インタフェースの下に検索作業の実行ログを見ることができます。結果を得ると、簡単なグラフ分析能力も提供されます。
    「Data Browsers」->「Metastoreテーブル」をクリックして、Hiveのデータベース、データベースのテーブル、および各テーブルのメタデータなどの情報を見ることができます。
    Oozie Workflow編集
    HUEもOozieの集積を提供しています。HUEでBundeles、Coordinator、Workflow.Oozieの紹介をホームページで確認できます。下図は、HUE上で新しいworkflowを作成し、このインターフェース上では、直接に異なるコンポーネントをドラッグしてDAG中のノードになり、各actionのフローロジックを設定します。
    もちろんOozieは、命令行によってB,C,Wを提出することもできます。HUEを使用して作成されたworkflowまたはコマンドラインで提出されたworkflowは、HUEで運転状況を確認することができます。
    コマンドラインで提出したworkflowだけではHUEで編集できません。配置ファイルやコマンドラインを使って提出することで、生産環境で動作するバージョンとテスト環境で動作するバージョンが一致することが保証されます。HUEインターフェースを使って編集するのは便利ですが、人工的な操作が生産環境でミスをする恐れがあります。
    Conttribution
    私は同僚にトレーニング材料を準備する時、HUEのgithubに行って資料を探しています。HUEの主な機能を見た時、github上の原文はこうです。
    ちょうど我が社が主に使っているデータベースはPostgreSQLで、PostGreeslがおかしいと感じています。そこでGoogleが一つになりました。PostgreSQLは二つの名前があります。PostgreSQLとPostgresです。現在の公式サイトの名前は依然としてPostgreSQLです。PostGreeslが何の典故があるかに関わらず、PostgreSQLは間違いないです。そこで、コード修正をHUEにどうやって提出するか調べてきました。Githubではwiki:Conttribute to HUEが見つかります。HUEは自分のJIRAとReview Boardがありますが、The Hue project gladly welcomes any patches or pull requests!とも言いました。
    そこで、私はgithubでHUEにIssueとPull Requestを送った。数日後にPull Requestが受信されました。mergeはmasterの分岐に行きました。このComitが見られます。
    更新の手順をここに記録します。
  • Fork HUEのエンジニアリング、例えばywheel/hu
  • 新しいブランチを作成します。マスター枝を使って修正を提出しないでください。例えば、fix-postgresql-spelling分岐を作成しました。
  • コードをpullに落として、修正した後、comitはfix-postgresql-spellingの分岐に提出します。
  • issueを作成します。HUEの工程でissueを作成すると、明確な問題を説明し、提出します。
  • 'Pull Request'をクリックして、clouder a/huのMaster分岐などの目的工事と分岐を選択します。コメントを記入し、作成したissue、create pull requestを説明します。
  • 次は、Reviewに提出するべきです。masterにmergeされて、Conttributorsに自分の名前が現れるまで待ちます。then everthing DONE!
    ps:単语のスペルを変えたら耻ずかしいと思いますが、good startです。近い将来に本当にオープンソースプロジェクト(特に流行のビッグデータ生态中のオープンソースプロジェクト)に贡献したいです。がんばってください。