データ可視化(六)----Pentaho Report Designケース二---接続hive

3003 ワード

転載は出典を明記してください:データ可視化(六)----Pentaho Report Designケース2-接続hive
この文書では、hiveをデータ・ソースとして使用してレポートを作成する方法を記録します.
公式サイトの参考リンク:https://wiki.pentaho.com/display/BAD/Reporting+on+Hive+Data

環境準備


レポートを作成する前に、Hadoop Pentaho Data Integration Hive Report Designer RDBMS Databaseという環境が必要です.

データの準備


サンプルデータ圧縮パッケージのダウンロードリンク:https://wiki.pentaho.com/download/attachments/23532261/weblogs_hive.zip?version=1&modificationDate=1328719928000&api=v2内容はwebのログデータで、tabで分割します.
hiveのshellを開き、hiveテーブルを作成
create table weblogs_agg (
    client_ip    string,
    year    string,
    month    string,
    month_num    int,
    pageviews    bigint
)
row format delimited;

hiveのshellを閉じ、linuxのshellでデータのロードコマンドを実行します.
hadoop fs –put weblog_hive.txt /user/hive/warehouse/weblogs_agg/

レポートの作成


Report Design選択'File'->「Report Wizard」->「from the menu system選択Template」を開きます.希望するスタイルを選択してnextすることができます.

データ・ソースの作成


プラス記号をクリックしてJDBCを選択します.
「sample query」を選択します.
プラス記号をクリックして新しい接続を作成します.
Connection Name:「Hive」と入力します.接続タイプ:「Hadoop Hive」を選択します.Host Name and Port Number:hiveの情報を入力します.ローカル単点クラスタはhost"localhost"とport"10000"を用いる.Database Name:入力"default"User NameとPasswordが空です.Testボタンをクリックして正しく接続できるかどうか、上記の情報が自分の環境に対応しているかどうかをチェックできない場合.

クエリーの作成


さっき新しく作成した接続「hive」を選択します.プラス記号をクリックします.クエリー名page viewsを入力します.次のquery文を入力します.
Select year, month,month_num, sum(pageviews) as pageviews
From weblogs_agg
Group by year, month,month_num
Order by year, month_num

同じ操作で2番目のクエリーIP Addressesを作成します.文は
Select distinct client_ip from weblogs_agg

2つのクエリーを作成した後、Report Design Wizardは次のようになります.

レポートレイヤーの作成


Report Design Wizardにレポートをどのように表示するかを伝える必要があります.Group Items Byにyearを追加します.Selected Itemsにmonthとpageviewsを追加します.

パラメータの作成


パラメータを作成する目的は、レポートを表示するときに、特別なパラメータを選択して表示できるようにすることです.ディレクトリバーで「Data」->「Add Parameter」を選択し、「JDBC(Hive)」データソースNameを選択して「paramIPAddress」を入力します.Label:『IP Address』Value Type:選択'String'を入力『Mandatory』Display Type:『Drop Down』Query:『IP Addresses』Valueを選択:『client_ip'Display Name:'client_を選択ip’
以上の操作を図のようにします.

パラメータを使用したクエリー


「Data」パネルでJDBC:Hiveを展開し、Page Viewを右クリックして「Edit Query」を選択します.
動的パラメータは次のように使用できます.
Where client_ip = ${paramIPAddress} 

$番号の前にスペースが必要です.
完全な文は次のとおりです.
Select year, month,month_num, sum(pageviews) as pageviews
From weblogs_agg
Where client_ip = ${paramIPAddress}
Group by year, month,month_num
Order by year, month_num

レポートの保存


「ファイル」->「Save as...」を選択してhive_と名付けますreport.prpt

レポートのプレビュー


「File」->「Preview」->「Print Preview」プレビューレポートウィンドウが開きます.IP Addressドロップダウン・ボックスを選択します.図のように表示されます.
転載は出典を明記してください:データ可視化(六)----Pentaho Report Designケース2-接続hive