データ可視化(六)----Pentaho Report Designケース二---接続hive
3003 ワード
転載は出典を明記してください:データ可視化(六)----Pentaho Report Designケース2-接続hive
この文書では、hiveをデータ・ソースとして使用してレポートを作成する方法を記録します.
公式サイトの参考リンク:https://wiki.pentaho.com/display/BAD/Reporting+on+Hive+Data
環境準備
この文書では、hiveをデータ・ソースとして使用してレポートを作成する方法を記録します.
公式サイトの参考リンク:https://wiki.pentaho.com/display/BAD/Reporting+on+Hive+Data
環境準備
レポートを作成する前に、Hadoop Pentaho Data Integration Hive Report Designer RDBMS Databaseという環境が必要です.
データの準備
サンプルデータ圧縮パッケージのダウンロードリンク:https://wiki.pentaho.com/download/attachments/23532261/weblogs_hive.zip?version=1&modificationDate=1328719928000&api=v2内容はwebのログデータで、tabで分割します.
hiveのshellを開き、hiveテーブルを作成create table weblogs_agg (
client_ip string,
year string,
month string,
month_num int,
pageviews bigint
)
row format delimited;
hiveのshellを閉じ、linuxのshellでデータのロードコマンドを実行します.hadoop fs –put weblog_hive.txt /user/hive/warehouse/weblogs_agg/
レポートの作成
Report Design選択'File'->「Report Wizard」->「from the menu system選択Template」を開きます.希望するスタイルを選択してnextすることができます.
データ・ソースの作成
プラス記号をクリックしてJDBCを選択します.
「sample query」を選択します.
プラス記号をクリックして新しい接続を作成します.
Connection Name:「Hive」と入力します.接続タイプ:「Hadoop Hive」を選択します.Host Name and Port Number:hiveの情報を入力します.ローカル単点クラスタはhost"localhost"とport"10000"を用いる.Database Name:入力"default"User NameとPasswordが空です.Testボタンをクリックして正しく接続できるかどうか、上記の情報が自分の環境に対応しているかどうかをチェックできない場合.
クエリーの作成
さっき新しく作成した接続「hive」を選択します.プラス記号をクリックします.クエリー名page viewsを入力します.次のquery文を入力します.Select year, month,month_num, sum(pageviews) as pageviews
From weblogs_agg
Group by year, month,month_num
Order by year, month_num
同じ操作で2番目のクエリーIP Addressesを作成します.文はSelect distinct client_ip from weblogs_agg
2つのクエリーを作成した後、Report Design Wizardは次のようになります.
レポートレイヤーの作成
Report Design Wizardにレポートをどのように表示するかを伝える必要があります.Group Items Byにyearを追加します.Selected Itemsにmonthとpageviewsを追加します.
パラメータの作成
パラメータを作成する目的は、レポートを表示するときに、特別なパラメータを選択して表示できるようにすることです.ディレクトリバーで「Data」->「Add Parameter」を選択し、「JDBC(Hive)」データソースNameを選択して「paramIPAddress」を入力します.Label:『IP Address』Value Type:選択'String'を入力『Mandatory』Display Type:『Drop Down』Query:『IP Addresses』Valueを選択:『client_ip'Display Name:'client_を選択ip’
以上の操作を図のようにします.
パラメータを使用したクエリー
「Data」パネルでJDBC:Hiveを展開し、Page Viewを右クリックして「Edit Query」を選択します.
動的パラメータは次のように使用できます.Where client_ip = ${paramIPAddress}
$番号の前にスペースが必要です.
完全な文は次のとおりです.Select year, month,month_num, sum(pageviews) as pageviews
From weblogs_agg
Where client_ip = ${paramIPAddress}
Group by year, month,month_num
Order by year, month_num
レポートの保存
「ファイル」->「Save as...」を選択してhive_と名付けますreport.prpt
レポートのプレビュー
「File」->「Preview」->「Print Preview」プレビューレポートウィンドウが開きます.IP Addressドロップダウン・ボックスを選択します.図のように表示されます.
転載は出典を明記してください:データ可視化(六)----Pentaho Report Designケース2-接続hive
サンプルデータ圧縮パッケージのダウンロードリンク:https://wiki.pentaho.com/download/attachments/23532261/weblogs_hive.zip?version=1&modificationDate=1328719928000&api=v2内容はwebのログデータで、tabで分割します.
hiveのshellを開き、hiveテーブルを作成
create table weblogs_agg (
client_ip string,
year string,
month string,
month_num int,
pageviews bigint
)
row format delimited;
hiveのshellを閉じ、linuxのshellでデータのロードコマンドを実行します.
hadoop fs –put weblog_hive.txt /user/hive/warehouse/weblogs_agg/
レポートの作成
Report Design選択'File'->「Report Wizard」->「from the menu system選択Template」を開きます.希望するスタイルを選択してnextすることができます.
データ・ソースの作成
プラス記号をクリックしてJDBCを選択します.
「sample query」を選択します.
プラス記号をクリックして新しい接続を作成します.
Connection Name:「Hive」と入力します.接続タイプ:「Hadoop Hive」を選択します.Host Name and Port Number:hiveの情報を入力します.ローカル単点クラスタはhost"localhost"とport"10000"を用いる.Database Name:入力"default"User NameとPasswordが空です.Testボタンをクリックして正しく接続できるかどうか、上記の情報が自分の環境に対応しているかどうかをチェックできない場合.
クエリーの作成
さっき新しく作成した接続「hive」を選択します.プラス記号をクリックします.クエリー名page viewsを入力します.次のquery文を入力します.Select year, month,month_num, sum(pageviews) as pageviews
From weblogs_agg
Group by year, month,month_num
Order by year, month_num
同じ操作で2番目のクエリーIP Addressesを作成します.文はSelect distinct client_ip from weblogs_agg
2つのクエリーを作成した後、Report Design Wizardは次のようになります.
レポートレイヤーの作成
Report Design Wizardにレポートをどのように表示するかを伝える必要があります.Group Items Byにyearを追加します.Selected Itemsにmonthとpageviewsを追加します.
パラメータの作成
パラメータを作成する目的は、レポートを表示するときに、特別なパラメータを選択して表示できるようにすることです.ディレクトリバーで「Data」->「Add Parameter」を選択し、「JDBC(Hive)」データソースNameを選択して「paramIPAddress」を入力します.Label:『IP Address』Value Type:選択'String'を入力『Mandatory』Display Type:『Drop Down』Query:『IP Addresses』Valueを選択:『client_ip'Display Name:'client_を選択ip’
以上の操作を図のようにします.
パラメータを使用したクエリー
「Data」パネルでJDBC:Hiveを展開し、Page Viewを右クリックして「Edit Query」を選択します.
動的パラメータは次のように使用できます.Where client_ip = ${paramIPAddress}
$番号の前にスペースが必要です.
完全な文は次のとおりです.Select year, month,month_num, sum(pageviews) as pageviews
From weblogs_agg
Where client_ip = ${paramIPAddress}
Group by year, month,month_num
Order by year, month_num
レポートの保存
「ファイル」->「Save as...」を選択してhive_と名付けますreport.prpt
レポートのプレビュー
「File」->「Preview」->「Print Preview」プレビューレポートウィンドウが開きます.IP Addressドロップダウン・ボックスを選択します.図のように表示されます.
転載は出典を明記してください:データ可視化(六)----Pentaho Report Designケース2-接続hive
プラス記号をクリックしてJDBCを選択します.
「sample query」を選択します.
プラス記号をクリックして新しい接続を作成します.
Connection Name:「Hive」と入力します.接続タイプ:「Hadoop Hive」を選択します.Host Name and Port Number:hiveの情報を入力します.ローカル単点クラスタはhost"localhost"とport"10000"を用いる.Database Name:入力"default"User NameとPasswordが空です.Testボタンをクリックして正しく接続できるかどうか、上記の情報が自分の環境に対応しているかどうかをチェックできない場合.
クエリーの作成
さっき新しく作成した接続「hive」を選択します.プラス記号をクリックします.クエリー名page viewsを入力します.次のquery文を入力します.Select year, month,month_num, sum(pageviews) as pageviews
From weblogs_agg
Group by year, month,month_num
Order by year, month_num
同じ操作で2番目のクエリーIP Addressesを作成します.文はSelect distinct client_ip from weblogs_agg
2つのクエリーを作成した後、Report Design Wizardは次のようになります.
レポートレイヤーの作成
Report Design Wizardにレポートをどのように表示するかを伝える必要があります.Group Items Byにyearを追加します.Selected Itemsにmonthとpageviewsを追加します.
パラメータの作成
パラメータを作成する目的は、レポートを表示するときに、特別なパラメータを選択して表示できるようにすることです.ディレクトリバーで「Data」->「Add Parameter」を選択し、「JDBC(Hive)」データソースNameを選択して「paramIPAddress」を入力します.Label:『IP Address』Value Type:選択'String'を入力『Mandatory』Display Type:『Drop Down』Query:『IP Addresses』Valueを選択:『client_ip'Display Name:'client_を選択ip’
以上の操作を図のようにします.
パラメータを使用したクエリー
「Data」パネルでJDBC:Hiveを展開し、Page Viewを右クリックして「Edit Query」を選択します.
動的パラメータは次のように使用できます.Where client_ip = ${paramIPAddress}
$番号の前にスペースが必要です.
完全な文は次のとおりです.Select year, month,month_num, sum(pageviews) as pageviews
From weblogs_agg
Where client_ip = ${paramIPAddress}
Group by year, month,month_num
Order by year, month_num
レポートの保存
「ファイル」->「Save as...」を選択してhive_と名付けますreport.prpt
レポートのプレビュー
「File」->「Preview」->「Print Preview」プレビューレポートウィンドウが開きます.IP Addressドロップダウン・ボックスを選択します.図のように表示されます.
転載は出典を明記してください:データ可視化(六)----Pentaho Report Designケース2-接続hive
Select year, month,month_num, sum(pageviews) as pageviews
From weblogs_agg
Group by year, month,month_num
Order by year, month_num
Select distinct client_ip from weblogs_agg
Report Design Wizardにレポートをどのように表示するかを伝える必要があります.Group Items Byにyearを追加します.Selected Itemsにmonthとpageviewsを追加します.
パラメータの作成
パラメータを作成する目的は、レポートを表示するときに、特別なパラメータを選択して表示できるようにすることです.ディレクトリバーで「Data」->「Add Parameter」を選択し、「JDBC(Hive)」データソースNameを選択して「paramIPAddress」を入力します.Label:『IP Address』Value Type:選択'String'を入力『Mandatory』Display Type:『Drop Down』Query:『IP Addresses』Valueを選択:『client_ip'Display Name:'client_を選択ip’
以上の操作を図のようにします.
パラメータを使用したクエリー
「Data」パネルでJDBC:Hiveを展開し、Page Viewを右クリックして「Edit Query」を選択します.
動的パラメータは次のように使用できます.Where client_ip = ${paramIPAddress}
$番号の前にスペースが必要です.
完全な文は次のとおりです.Select year, month,month_num, sum(pageviews) as pageviews
From weblogs_agg
Where client_ip = ${paramIPAddress}
Group by year, month,month_num
Order by year, month_num
レポートの保存
「ファイル」->「Save as...」を選択してhive_と名付けますreport.prpt
レポートのプレビュー
「File」->「Preview」->「Print Preview」プレビューレポートウィンドウが開きます.IP Addressドロップダウン・ボックスを選択します.図のように表示されます.
転載は出典を明記してください:データ可視化(六)----Pentaho Report Designケース2-接続hive
「Data」パネルでJDBC:Hiveを展開し、Page Viewを右クリックして「Edit Query」を選択します.
動的パラメータは次のように使用できます.
Where client_ip = ${paramIPAddress}
$番号の前にスペースが必要です.
完全な文は次のとおりです.
Select year, month,month_num, sum(pageviews) as pageviews
From weblogs_agg
Where client_ip = ${paramIPAddress}
Group by year, month,month_num
Order by year, month_num
レポートの保存
「ファイル」->「Save as...」を選択してhive_と名付けますreport.prpt
レポートのプレビュー
「File」->「Preview」->「Print Preview」プレビューレポートウィンドウが開きます.IP Addressドロップダウン・ボックスを選択します.図のように表示されます.
転載は出典を明記してください:データ可視化(六)----Pentaho Report Designケース2-接続hive
「File」->「Preview」->「Print Preview」プレビューレポートウィンドウが開きます.IP Addressドロップダウン・ボックスを選択します.図のように表示されます.
転載は出典を明記してください:データ可視化(六)----Pentaho Report Designケース2-接続hive