azure data lake gen2 ファイル操作方法いろいろ


はじめに

自分用の資料のリンク
azure data lake gen2 はファイルのアップロード方法が複数ある。

hdfs cmd

hadoop 3.2.1からazure data lake gen2をサポート

https://docs.microsoft.com/ja-jp/azure/storage/blobs/data-lake-storage-use-hdfs-data-lake-storage
https://hadoop.apache.org/docs/current/
https://iwasakims.github.io/trunk/hadoop-project/hadoop-azure/abfs.html

認証方式

  • access key
  • managed identity

sas tokenは使えない

azcopy

azcopy cpコマンドでローカルからdata lake gen2にアップロードできる。
ローカルからdata lake gen2からのアップロードはネイティブapiだが、data lake gen2からdata lake gen2へのコピーはblobのapiを使う。

認証方式

  • sas token
  • managed identity

access keyは使えない

python SDK

azure-storage-file-datalake

というモジュールがあるが、まだプレビュー段階(2020年1月段階)

https://pypi.org/project/azure-storage-file-datalake/
https://docs.microsoft.com/ja-jp/azure/storage/blobs/data-lake-storage-directory-file-acl-python

認証方式

  • sas token
  • access key
  • managed identity

azure-storage-blob

こちらはプレビューではないが、data lake gen2のapiではなく、blobのapiを使う。

https://pypi.org/project/azure-storage-blob/
https://docs.microsoft.com/ja-jp/azure/storage/blobs/storage-quickstart-blobs-python

認証方式

  • sas token
  • access key
  • managed identity