Azure Synapse Pathway


はじめに

Azure Synapse Pathway(ASP)はAzure Synapse Analyticsへの移行に役に立つアセスメントツール(DWHのコード翻訳ツール)です。ツール自体は、無償で提供されています。
Azure Synapse Pathway(ASP)はSQL Server Migration Assistant(SSMA)に似ていますが、主に分析データストア用の移行の焦点として、スマートロジックの上に作られています。
Azure Synapse Pathwayを利用することで、既存DWHのスクリプトの変換にかかる時間を短縮でき、データベースエンジニアのコストにも削減できるようになります。

DWHの移行Projectに携わったことがあれば、新しいデータベーステクノロジを採用するには時間がかかることがあります。
それは、移行計画や移行PoC、そして移行予算に時間がかかってしまいます。
上記の動画図のように、元々のDWHをAzure Synapse Analyticsに移行するために、ETLやELT、またはSQL Code Translationが必要です。
Azure Synapse Pathway(ASP)を使えば、その手間を省くことができるようになります。

特に、運用してきたEnterprise DWH環境にとっては、移行するのに、もっと時間やコストがかかる傾向があります。
おそらくずっと運用してきたEnterprise DWH環境はオンプレミスかプライベートクラウド環境を想定していますが、そのEnterprise DWH環境は長年にわたって、DWHの使命や目的を果たしてきたかもしれませんが、現在のパブリッククラウドの発展によって、徐々に現在の市場ニーズに合わないレガシーシステムになりつつあります。
そのため、MicrosoftはIgnite 2021でAzure Synapse Pathwayを発表されました。既存のEnterprise DWH環境をAzure Synapseに移行できるように推進しています。

Reference URLs

Azure Synapse Pathway概要
Azure Synapse Pathwayに関する FAQ
Azure Synapse Pathwayバックグラウンド
Azure Synapse Pathwayダウンロード
Azure Synapse Pathwayを実行する
Azure Synapse Pathway保存と読み込み
Azure Synapse Pathwayレポート生成

Azure Synapse Pathwayとは

Azure Synapse Pathwayは他の分析用のDWHソースからAzure Synapse Analyticsへのスクリプト(テーブル、ストアドプロシージャ、関数、ビューなど) の移行を高速化してくれます。
なぜ、高速化というと、例えば、移行元のDWHには1000個のスクリプトを変換する予定として、Azure Synapse Pathwayを使うと、80%以上の変換率でツール側でやってくれます。
つまり、手動で変換することおは避けられます。そのため、DWHの移行Projectから見ると、全体の工数が減らすこともできるようになります。
Azure Synapse Analyticsに変換する必要があるスクリプトを選択するだけで、変換されたスクリプトが出力されます。とても便利なツールでも言えます。

サポートされデータソース

  • IBM Netezza
  • Microsoft SQL Server
  • Snowflake
  • Amazon Redshift
  • Google BigQuery
  • Teradata

対応するデータソースの詳細に関しては、Azure Synapse Pathwayに関する FAQを参考にしてください。

Azure Synapse Pathwayのアーキテクチャ


Azure Synapse Pathway(ASP)は、ソースシステムに接続し、データベースオブジェクトに関する詳細を検査します。
評価レポートには、Azure Synapse Analyticsに変換できるデータベース オブジェクトに関する詳細が記録されます。
Azure Synapse Pathway(ASP)を使用すると、ソースデータベースのオブジェクトが自動的に変換され、Azure Synapse AnalyticsでT-SQLコードに最適化されます。
つまり、既存のコードは、Azure Synapse Pathwayによって、行数関係なく、変換されます。

まず、上記の図のように、ソースシステムがあります。

それから、上記の図のように、
Lexerは、字句解析です。つまり、前者のソースシステムのメタデータから、ソースのステートメントを取得し、それを論理トークンに分割してから、セットまたはパーサー規則に対して実行して言語の一貫性を確保します。
Parserは、構文解析、整形、フォーマットをしてくれます。つまり、文字列フィールド内の‎‎SQL‎‎クエリを解析します。クエリを‎‎解析‎‎する場合、プロセッサは‎‎SQL‎‎クエリで定義されたフィールドに基づいてフィールドを生成し、レコードヘッダー属性でCRUD操作、テーブル、およびスキーマ情報を指定します。そして、後続Augmented abstract syntax tree(AST)処理するように、SQL文を整えてくれます。
そもそも、LaxerとParseの関係を理解するために、下記の図をお借りします。図はあくまで参考とします。Ref URL

上記の図では、数字の足し算ですが、足し算の結果を求めるために、Lexerによって、それぞれの部品(トークン)に分割し、それから、Parserによって、Augmented abstract syntax tree (AST)を作りだして、計算式を決めてから、計算を行います。
SQL文も同様です。下記の図のように、SELECT文を分解して、Augmented abstract syntax tree(AST)処理するように、SQL文を整えてくれます。図はあくまで参考とします。Ref URL

ソースシステムのSQL用語次第ですが、例えば、Teradataなら、TeradataのSQL用語、SnowflakeならSnowflakeのSQL用語。Teradataの場合、LIKE ANYの書き方はありますが、Azure Synapse Analyticsにはこのような書き方はないため、変換してくれるように、Augmented abstract syntax tree(AST)内のすべてのオブジェクトの共通表現を定義して、ステートメントまたはフラグメント化されたメタデータを決定します。分かりやすく説明すると、つまり、Azure Synapse Pathway(ASP)のコード変換エンジンがソース元のコードをAzure Synapse Analyticsでも認識できるように、整えることです。

その後に、Azure Synapse Analyticsがコード出力できるように、Augmented abstract syntax tree(AST)から、Azure Synapse Symbolic Treeになります。この時点では、Azure Synapse Pathwayの内部で、すでにAzure Synapse Analyticsが読めるように、整えた状態になります。

最後、Azure Synapse AnalyticsのSQL構文を生成します。SQL構文のGeneratorは、Azure Synapse AnalyticsのSQLステートメントを最適化してくれます。例えば、Azure Synapse Analyticsでは、よく使うCTAS(CREATE TABLE AS SELECT)を使うことで、データロードのパフォーマンスの改善にも繋がります。What is Azure Synapse Analytics CTAS?

そして、ユーザー側に、分かりやすく変換レポートが出力され、どのぐらいエラーがあったか、どのぐらいコードが変換されたか、実際のプロジェクトの工数の見積計算ネタにもなります。

Azure Synapse Pathwayインストール条件

Azure Synapse Pathwayを使用するには.NET Core Desktop Runtime 3.1.11以降が必要です。

Azure Synapse Pathwayダウンロード


上記の画像はMicrosoft Ignite 2021で発表された直後のVerです。最新版をダウンロードしてください。
Download URL

Azure Synapse Pathwayインストール手順

ダウンロードしたMSIファイルを開いて、インストールを開始します。

ライセンス同意にチェックを入れて、次へ



サイズは小さいので、一般のPCではすぐに終わります。

Azure Synapse Pathwayの使い方(GUI)


このツールはとてもシンプルです。基本的に、InputとOuputの設定だけで、終わります。
まず、変換元のタイプを選びます。それから、InputとOutputのパスを設定します。
ここで、注意ですが、このツールは変換元のデータベースに接続する必要はありません。あらかじめに、SQLステートメントをExportする必要があります。
試しに、SnowflakeのTPCHのSampleDataを使って、GET_DLL()で、スキーマの定義を取得します。

select get_ddl('schema','jssug.AzureSynapsePathway',false);

また、WebUI以外のSnowflakeクライアントツールもあります。例えば、Eclipse UI系のDBeaver(Javaベース)です。
こちらも、DDL生成することも可能です。

DDLが生成されたら、Azure Synapse Pathway(ASP)のInput Directoryフォルダに、一つSQLファイルを作っておいてください。

それから、変換タイプは「Snowflake」を選択し、コードの変換を行います。

データ量次第ですが、時間がかかる場合もあります。

そして、変換が終わったら、エラーか警告があるかどうかを確認します。

このテストでは、エラーもなく、一発ですべて成功したことが確認できます。
場合によって、ErrorまたはWarningsがある場合、Issuesの枠に情報が表してくれます。
そして、結果を確認しましょう。結果はOutputのフォルダに出力されます。直接Outputフォルダを開くか、View Resultsボタンをクリックして、フォルダにジャンプしてくれます。

今回は、TableのDDLしかなかったので、Azure Synapse Pathway(ASP)がTablesというフォルダを作ってくれました。もし、Viewがある場合、Viewフォルダも作ってくれます。
tablesフォルダのほかに、results.csvがあります。ここに注意ですが、すべて成功した場合、results.csvは空っぽです。確認しなくてもいいです。その以外の場合、まとめたエラーメッセージと警告が出力されます。Azure Synapse Pathway(ASP)はCsvHelper.dllを読んでいますので、csv形式として、出力されるでしょう。
次は、tablesフォルダを見ていきます。

dboスキーマ(サブフォルダ)が作られて、その中に、SnowflakeのスキーマDDLに書かれたCREATE OR REPLACE TABLEの対象をぞれぞれに、SQLファイルを出力されたことが確認できます。
試しに、その中の一つSQLファイル(ORDERS.sql)を開いてみましょう。

ここで判明したのは、Azure Synapse Analytics Dedicated SQL Pool用のSQL構文です。Azure Synapse Analytics Dedicated SQL Poolには、CREATE TABLEの際に、テーブル分散方式の指定と、デフォルトであるCLUSTERED COLUMNSTORE INDEXの指定が必要です。※CLUSTERED COLUMNSTORE INDEX以外は、HEAPなども指定可能です。
その部分は、Azure Synapse Pathway(ASP)のTranslationエンジンによって、SQLコードを変換されています。

アセスメントを保存する場合、Save Assessmentボタンを押します。
ファイルの拡張子は、aspprojになります。

保存したaspprojファイルをLoadすることもできます。
最後に、出力したSQLファイルをAzure Synapse Studioか、SSMSで、実行すれば、Azure Synapse Analytics Dedicated SQL Poolに、Snowflakeと同様のTableが作られます。

もちろん、Azure Synapse Pathway(ASP)を使わずに、Azure Data Factory V2のSnowflakeコネクタを使って移行することも可能です。

Azure Synapse Pathwayの使い方(CUI)

インストールされますと、インストールパスに、AspCmd.exeファイルができます。バッチ処理にも使えます。

aspcmd.exe --help

コマンドのパラメータを確認できます。

Azure Synapse Pathwayのまとめ

今回は、他のプロバイダーによって管理されている分析データストアか Azure Synapse Analyticsの移行を加速する最初の例とします。
SSMAのように、アセスメントを行い、SQLコードを変換してくれていることで、移行プロジェクトから見ると必須アイテムであることに違いないです。
今後、ほかのプロバイダーも出てきそうですね。今後のアップデートを楽しみにしています。

この度、ぜひAzure Synapse Pathwayを利用してみたらいかがでしょうか。
Azure Synapse Analytics、またSQL Serverの導入及び相談を承ります。