Azure キャッチアップ


わからなかった単語

  • ADLS
  • U-SQL
  • Hive (Apache)
  • Hadoop
  • HDInsight
  • Blob
  • Jupyter Notebook
  • Data Warehouse
  • Data lake store
  • Azure
  • Azure ML製品
  • Azure Note
  • コラボラトル
  • AWS S3
  • Spark
  • Azure ML Studio
  • Chainer
  • HDFS
  • Ambari

キャッチアップまとめ

Azure

米Microsoftが開発し提供するクラウドサービス

特徴

  • 企業が利用することを前提に考えられているクラウドサービス
  • IaaSとPaaSを包含したクラウドサービス
  • モバイルファースト+クラウドファーストを目指すプラットフォーム
  • パブリッククラウドに属するサービス
  • Azureが各サービスを提供している

参考

Azure Data Lake Store

参考

Azure Data Lake Analytics

参考

U-SQL

参考

Hadoop

参考

HDInsight

参考

Hive

参考

Jupyter Notebook

参考

Microsoft Azure Machine Learning Studio

参考

Ambari


ADFからの動的なファイル名のU-SQLの実行


HiveでCSVファイルからデータ取得

やりたいこと

注意事項

** HDInsightのクラスタは起動しているだけで課金されるため、使い終わった瞬間にクラスタを削除すること **

全体の流れ

  1. AzureでHDInsightクラスタの作成
  2. クエリの実行

AzureでHDInsightクラスタの作成

HiveApache Hadoopの上で動くアプリケーションなので、Hadoopクラスタを作成する
クラスタの作成は、下記の公式ドキュメントを参考にする
Hadoop チュートリアル: HDInsight で Hadoop を使用する | Microsoft Doc

クエリの実行

HDInsight Hadoop #1 Hive クエリ実行 (CUI編) | OSS on Azure 技術ブログ

  • これでやってみる

Azure CLI 2.0 のインストール | Microsoft Doc

  • 自分のOSにあったCLIをインストール

Azure CLI 2.0 を使ってみる | Microsoft Doc

  • 使ってみよう
  • できなかった

HDInsight Hadoop #2 Hive クエリ実行 (Apache Ambari編) | OSS on Azure 技術ブログ

  • CLIでできなかったので、GUIでやってみる
  • Apache Amabriでの作業についての手順がわかりやすい