Splunk 住所マスターデータを取り込む


https://geolonia.github.io/japanese-addresses/
こちらのデータをsplunkに取り込んでみた。

データについて

  • 都道府県コード
  • 都道府県名
  • 都道府県名カナ
  • 都道府県名ローマ字
  • 市区町村コード
  • 市区町村名
  • 市区町村名カナ
  • 市区町村名ローマ字
  • 大字町丁目コード
  • 大字町丁目名
  • 緯度(代表点)
  • 経度(代表点)

データ数:189539(R2.8.21)

props.conf

日本語の列名はINDEXED_EXTRACTIONSの場合上手くいかなかった。

props.conf
[jyusho_csv]
DATETIME_CONFIG = CURRENT
FIELD_DELIMITER = ,
INDEXED_EXTRACTIONS = csv
LINE_BREAKER = ([\r\n]+)
NO_BINARY_CHECK = true
SHOULD_LINEMERGE = false
category = Custom
disabled = false
pulldown_type = true
FIELD_NAMES = todofuken_code,todofukenmei,todofukenmei_kana,todofukenmei_roman,shikuchouson_code,shikuchousonmei,shikuchousonmei_kana,shikuchousonmei_roman,oazamachichoumoku_code,oazamachichoumokumei,ido,keido
CHARSET = AUTO
PREAMBLE_REGEX = 都道府県名

FIELD_NAMESはとりあえずローマ字ベタ内のフィールドにしてみた。

これで保存して、いったんSplunkを再起動
そしてCSV自体もzipで圧縮してアップロード

結果

いろいろトップ10

市区町村名 カウント
旭川市 2,270
岐阜市 2,143
帯広市 1,578
富山市 1,279
豊田市 1,206
札幌市東区 1,105
札幌市北区 1,057
札幌市中央区 990
長岡市 940
金沢市 900
都道府県名 カウント
北海道 25,914
愛知県 14,507
兵庫県 8,967
大阪府 8,603
京都府 7,631
新潟県 7,217
岐阜県 6,699
福岡県 6,174
千葉県 5,716
東京都 5,358
yokosuka.spl
| tstats count where source="address.zip:*"  shikuchousonmei="横須賀市"  by oazamachichoumokumei
| rex field=oazamachichoumokumei "(?<machi>.*)(?<choume>.丁目)"
| eval machi=coalesce(machi,oazamachichoumokumei)
| stats count by machi

町が多かった。
INDEXED_EXTRACTIONSの利点はtstatsがそのまま使えるところ。

まとめ

日本語のヘッダーはtransforms.confでやると上手くいくけど、正規表現で書かなきゃいけないのがかなりめんどいです。

日本語フィールド名は一応対応していないことになっていますし。

最後出力するときにrename使って変更しましょう