Azure キャッチアップ
わからなかった単語
- ADLS
- U-SQL
- Hive (Apache)
- Hadoop
- HDInsight
- Blob
- Jupyter Notebook
- Data Warehouse
- Data lake store
- Azure
- Azure ML製品
- Azure Note
- コラボラトル
- AWS S3
- Spark
- Azure ML Studio
- Chainer
- HDFS
- Ambari
キャッチアップまとめ
Azure
米Microsoftが開発し提供するクラウドサービス
特徴
- 企業が利用することを前提に考えられているクラウドサービス
- IaaSとPaaSを包含したクラウドサービス
- モバイルファースト+クラウドファーストを目指すプラットフォーム
- パブリッククラウドに属するサービス
- Azureが各サービスを提供している
参考
- Azure とは
- まだ知らない人のための最新Microsoft Azure入門
- 知っておきたいIaaS、PaaS、SaaSの違い
- Microsoft Azureをより良く知るための基礎知識【第1回】
- Azure コラム 第1回 「Microsoft (Azure) vs Amazon (AWS)」
- Azure コラム 第2回 「事例から見るAzure活用のポイント」
- オンプレミス
- IaaS とは
- PaaS とは
Azure Data Lake Store
参考
- Data Lake Store
- はじめての Azure Data Lake ~ そもそも Data Lake って何? ~
- Azure Data Lake Store の概要
- Azure Data Lake を試してみました
- HDFS 【Hadoop Distributed File System】
- Azure Data Lake Analytics で100GBくらいのCSVファイルを処理 - Qiita
Azure Data Lake Analytics
参考
U-SQL
参考
Hadoop
参考
- Apache Hadoop - Wikipedia
- Hadoopとは - Qiita
- Hadoop(ハドゥープ)とは?:ビッグデータ処理を支える「基盤」|データ分析用語を解説
- HadoopとはFujitsu
- 分散処理技術「Hadoop」とは
HDInsight
参考
- HDInsight—クラウド向け Hadoop、Spark、R ソリューション | Microsoft .
- 第1回 HDInsightとは何か?:HDInsightを知る~ビッグデータ×クラウド ...
- はじめての Azure Data Lake ~ Azure Data Lake に HDInsight(Hadoop ...
Hive
参考
- Hiveとは?:Hadoop上で稼動するデータベースマネージメントシステム(DBMS)|データ分析用語を解説
- Hadoop+Hive検証環境を構築してみる (1/3)
- Apache Hive と HiveQL とは - Azure HDInsight | Microsoft Docs
-
Azure HDInsight で Hadoop と Hive を使用する | Microsoft Docs
- これを元にHDInsightを作成した
Jupyter Notebook
参考
- [はじめるJupyter Notebook - Qiita](https://qiita.com/icoxfog417/items/175f69d06f4e590face9
- Jupyter事始め - Qiita
Microsoft Azure Machine Learning Studio
参考
Ambari
ADFからの動的なファイル名のU-SQLの実行
-
Azure Data Lake Analytics で U-SQL スクリプトを実行してデータを変換 | Microsoft Doc
- 動的なファイル名をパラメータにしている例が載っている
-
Azure Data Lake と Azure Data Factory を使用してビッグ データ パイプラインを作成する | Microsoft blog
- 上と同様、動的なファイル名をパラメータにしている例が載っている
-
Azure Data Factory を使用してファイル システムをコピー先またはコピー元としてデータをコピーする | Microsoft Doc
- 上と同様、動的なファイル名をパラメータにしている例が載っている
-
Azure Data Factory の ForEach アクティビティ | Microsoft Doc
- ADFでループを回す
HiveでCSVファイルからデータ取得
やりたいこと
注意事項
- 動的なファイル名をパラメータにしている例が載っている
- 上と同様、動的なファイル名をパラメータにしている例が載っている
- 上と同様、動的なファイル名をパラメータにしている例が載っている
- ADFでループを回す
やりたいこと
注意事項
** HDInsightのクラスタは起動しているだけで課金されるため、使い終わった瞬間にクラスタを削除すること **
全体の流れ
- AzureでHDInsightクラスタの作成
- クエリの実行
AzureでHDInsightクラスタの作成
HiveはApache Hadoopの上で動くアプリケーションなので、Hadoopクラスタを作成する
クラスタの作成は、下記の公式ドキュメントを参考にする
Hadoop チュートリアル: HDInsight で Hadoop を使用する | Microsoft Doc
クエリの実行
HDInsight Hadoop #1 Hive クエリ実行 (CUI編) | OSS on Azure 技術ブログ
- これでやってみる
Azure CLI 2.0 のインストール | Microsoft Doc
- 自分のOSにあったCLIをインストール
Azure CLI 2.0 を使ってみる | Microsoft Doc
- 使ってみよう
- できなかった
HDInsight Hadoop #2 Hive クエリ実行 (Apache Ambari編) | OSS on Azure 技術ブログ
- CLIでできなかったので、GUIでやってみる
- Apache Amabriでの作業についての手順がわかりやすい
Author And Source
この問題について(Azure キャッチアップ), 我々は、より多くの情報をここで見つけました https://qiita.com/maejimayuto/items/6a871ccf12c423b6ea12著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .