DatabricksのIPアクセス制限の設定方法


Databricksのセキュリティ機能の一つであるIPアドレスよるアクセス制限について、動作仕様と設定方法について説明します。

概要

Databricksへのアクセスは、基本的にワークスペースURLを介して実施されます。通常のブラウザベースでワークスペースにアクセスする場合に加えて、外部からJDBC接続する場合や、Databricks API/CLIを使う場合においても接続先のエンドポイントはこのワークスペースURLになります。

DatabricksのIPアクセス制限は、このワークスペースURLへのアクセスに関して実行されます。よって、制限の対象は、ブラウザでのアクセス、JDBC/ODBC接続、API/CLI実行に及びます。

また、IPアクセス制限機能は、以下の契約Tierが必要です。

  • Databricks on AWS: Enterprise
  • Azure Databricks: Premium
  • Databricks on GCP: Premium

動作仕様

IPアクセス制限は、全てのアクセスに関して以下のステップで評価されます。
(Blackリスト=ブロックリスト、Whiteリスト=許可リスト)

  1. IPアクセス制限機能がON(enableIpAccessLists == true)になっている場合に、以下を評価する。
  2. アクセス元IPアドレスがBlackリストにある場合は、アクセスを拒否する。
  3. Whiteリストが定義されている、かつ、アクセス元IPアドレスがWhiteリストにない場合、アクセスを拒否する。
  4. 上記以外の場合は、アクセスを許可する。

公式ドキュメントページにフローチャートがありますので参照ください。

上記だと、ややわかりづらい部分もありますので、評価のステップを疑似コードでも表してみました。

ip_address={接続元のIPアドレス};

if( enableIpAccessLists == "true" ){
	if( BLACK_LIST exists && ip_address in BLACK_LIST ){
		reject();
		exit();
	}

	if( WHITE_LIST exists ){
		if ( ip_address NOT in WHITE_LIST ){
			reject();
			exit();
		}
	} 
}

allow();
exit();

注意すべき点として、Whiteリストが一つでもあると、「Whiteリストに載っているIPしか許可しない」動作になります。したがって、誤ったIPが登録されたWhiteリストを反映させてしまうと、アクセスがブロックされてしまう可能性があります。

設定手順

方針

運用上、Blackリストによる特定のIPからの接続ブロックよりも、Whiteリストによる特定のIPのみ接続許可のケースが多いと思いますので、このパターンの設定方法を見ていきます。特に、IPアクセス制限の設定自体のAPIリクエストもIPアクセス制限の対象になりますので、設定手順を誤ると全アクセスがブロックされ(締め出される)、身動きが取れなくなるので注意が必要です。

(ただし、実際は、IPアクセス制限設定の時に、APIリクエスト元のIPがWhiteリストにない場合はエラーになる仕様になっています。それでも、なお、アクセスできない状況に陥った場合は、サポートチケットによりリカバリをする必要があります。)

以下のステップで設定を見ていきます。

  1. IPアドレス制限機能がOFFになっていることを確認する
  2. Whiteリストの追加
  3. Whiteリストの確認(少なくとも、APIリクエスト元のIPが含まれていることを確認)
  4. (上記をダブルチェック)
  5. IPアドレス制限機能をONにする
  6. 動作確認
    1. 許可リストにないクライアントからのアクセスが拒否されるかを確認
    2. 許可リストに含まれるクライアントからアクセスできるかを確認

設定作業

IPアクセス制限機能の設定に関しては、APIで設定していきます。ここでは見やすさと汎用性からの観点からcurlコマンドを使用して実施していきます。RESTful APIですので、他のクライアントでも同様に可能です。

0. 事前準備

ここでは、curlコマンドが実行できるLinux/Unix/MacOS環境を想定します。

まず、ワークスペースURL、及び、DatabricksのPersonal Access Token(以下、Token)を環境変数として定義します。Tokenはセキュリティ情報ですので、有効期限を1日に設定し、かつ、historyなどに残らないように扱ってください。ここでは簡単のため、通常のexportコマンドで環境変数を定義します。

$ export WS_URL='https://xxxxxxxxx.cloud.databricks.com' # <= ワークスペースのURL
$ export TOKEN='dapidxxxxxxxxx4b9948f0a38307' # <= DatabricksのToken

1. IPアドレス制限機能がOFFになっていることを確認する

$ curl -X GET \                                                             
     -H "Authorization: Bearer ${TOKEN}" \
     "${WS_URL}/api/2.0/workspace-conf?keys=enableIpAccessLists"

### レスポンス
{"enableIpAccessLists":"false"}

初期状態は{"enableIpAccessLists":"null"}になっている場合もありますが、それでも問題ありません。

2. Whiteリストの追加

Whiteリストに許可するIPを登録していきます。CIDRブロック形式でも登録できます。また、Whiteリストは複数登録できますので、IPリストをグループ化して運用することができます。今回は、1つのWhiteリストをoffice2という名前で作成します。許可するIPアドレスはコマンド内にある通り、JSON配列形式で並べていきます。

$ curl -X POST \
     -H "Authorization: Bearer ${TOKEN}" \
    "${WS_URL}/api/2.0/ip-access-lists" \
	-d '{
		"label": "office2",
		"list_type": "ALLOW",
		"ip_addresses": [
			"147.192.33.0/24",
			"1.2.3.4",
			"5.6.7.8",
			"44.230.222.179"
		]
	}'

### レスポンス
{
    "ip_access_list": {
        "list_id": "68bb11a5-xxxxxxxxx-xxxxxxxx-dcd7c0231f39",
        "label": "office2",
        "ip_addresses": [
            "147.192.33.0/24",
            "1.2.3.4",
            "5.6.7.8",
            "44.230.222.179"
        ],
        "address_count": 4,
        "list_type": "ALLOW",
        "created_at": 1647924789294,
        "created_by": 1871322770409591,
        "updated_at": 1647924789294,
        "updated_by": 1871322770409591,
        "enabled": true
    }
}

3. Whiteリストの確認(少なくとも、APIリクエスト元のIPが含まれていることを確認)

上記で登録したWhiteリストを確認します。

$ curl -X GET \
     -H "Authorization: Bearer ${TOKEN}" \
     "${WS_URL}/api/2.0/ip-access-lists"

### レスポンス
{
    "ip_access_lists": [
        {
            "list_id": "68bb11a5-xxxxxxxxx-xxxxxxxx-dcd7c0231f39",
            "label": "office2",
            "ip_addresses": [
                "147.192.33.0/24",
                "1.2.3.4",
                "5.6.7.8",
                "44.230.222.179"
            ],
            "address_count": 4,
            "list_type": "ALLOW",
            "created_at": 1647924789294,
            "created_by": 1871322770409591,
            "updated_at": 1647924789294,
            "updated_by": 1871322770409591,
            "enabled": true
        }
    ]
} 

また、同時に、このAPIリクエスト元のIP(つまり上記のcurlコマンドを実行しているマシンのIP)がWhiteリストに含まれていることを確認します。

### このマシンのGlobal IPを確認する(方法はさまざま)

$ curl -4 ifconfig.co
147.192.33.83

このIPアドレス147.192.33.83はWhiteリストに登録してある147.192.33.0/24に含まれますので、問題ないことがわかります。

4. (上記をダブルチェック)

再度、確認します。本番では、作業者2人でリアルタイムにレビューしながら進めるなど、運用を考えてください。

5. IPアドレス制限機能をONにする

最後に、IPアドレス機能をONにします。このAPI実行によって、数分後にIPアドレス制限が有効になります。

$ curl -X PATCH \
     -H "Authorization: Bearer ${TOKEN}" \
	"${WS_URL}/api/2.0/workspace-conf" \
	-d '{
		"enableIpAccessLists": "true"
	}'

ONになったかをAPIで確認します(最初に実行したAPIに同じ)。

$ curl -X GET \
     -H "Authorization: Bearer ${TOKEN}" \
     "${WS_URL}/api/2.0/workspace-conf?keys=enableIpAccessLists"

### レスポンス
{"enableIpAccessLists":"true"}

API上ではONになったことが確認できました。

6. 動作確認

6.1 許可リストにないクライアントからのアクセスが拒否されるかを確認

IPアドレス制限は反映までに数分かかることがあるため、動作確認はブロックされるパターンからテストすると、反映されたことも同時確認できるので効率的です。APIもブロック対象になるので、Whiteリストに登録されていないクライアントを用意して、APIリクエストで確認してみます。

### WhiteリストにないクライアントのShell

$ export WS_URL='https://xxxxxxxxx.cloud.databricks.com' # <= ワークスペースのURL
$ export TOKEN='dapidxxxxxxxxx4b9948f0a38307' # <= DatabricksのToken

$ curl -X GET \
     -H "Authorization: Bearer ${TOKEN}" \
     "${WS_URL}/api/2.0/workspace-conf?keys=enableIpAccessLists"

### レスポンス
{"error_code":"403","message":"Unauthorized access to Org: 4030176293824898"}

リクエストがブロックされていることが確認できました。

6.2 許可リストに含まれるクライアントからアクセスできるかを確認

同様に、許可リストにあるクライアントからの接続を確認します。

### WhiteリストにあるクライアントのShell

$ export WS_URL='https://xxxxxxxxx.cloud.databricks.com' # <= ワークスペースのURL
$ export TOKEN='dapidxxxxxxxxx4b9948f0a38307' # <= DatabricksのToken

$ curl -X GET \
     -H "Authorization: Bearer ${TOKEN}" \
     "${WS_URL}/api/2.0/workspace-conf?keys=enableIpAccessLists"

### レスポンス
{"enableIpAccessLists":"true"}

アクセスできることが確認できました。

参考