Splunk 住所マスターデータを取り込む
https://geolonia.github.io/japanese-addresses/
こちらのデータをsplunkに取り込んでみた。
データについて
列
- 都道府県コード
- 都道府県名
- 都道府県名カナ
- 都道府県名ローマ字
- 市区町村コード
- 市区町村名
- 市区町村名カナ
- 市区町村名ローマ字
- 大字町丁目コード
- 大字町丁目名
- 緯度(代表点)
- 経度(代表点)
データ数:189539(R2.8.21)
props.conf
日本語の列名はINDEXED_EXTRACTIONS
の場合上手くいかなかった。
[jyusho_csv]
DATETIME_CONFIG = CURRENT
FIELD_DELIMITER = ,
INDEXED_EXTRACTIONS = csv
LINE_BREAKER = ([\r\n]+)
NO_BINARY_CHECK = true
SHOULD_LINEMERGE = false
category = Custom
disabled = false
pulldown_type = true
FIELD_NAMES = todofuken_code,todofukenmei,todofukenmei_kana,todofukenmei_roman,shikuchouson_code,shikuchousonmei,shikuchousonmei_kana,shikuchousonmei_roman,oazamachichoumoku_code,oazamachichoumokumei,ido,keido
CHARSET = AUTO
PREAMBLE_REGEX = 都道府県名
FIELD_NAMES
はとりあえずローマ字ベタ内のフィールドにしてみた。
これで保存して、いったんSplunkを再起動
そしてCSV
自体もzipで圧縮してアップロード
結果
いろいろトップ10
市区町村名 | カウント |
---|---|
旭川市 | 2,270 |
岐阜市 | 2,143 |
帯広市 | 1,578 |
富山市 | 1,279 |
豊田市 | 1,206 |
札幌市東区 | 1,105 |
札幌市北区 | 1,057 |
札幌市中央区 | 990 |
長岡市 | 940 |
金沢市 | 900 |
都道府県名 | カウント |
---|---|
北海道 | 25,914 |
愛知県 | 14,507 |
兵庫県 | 8,967 |
大阪府 | 8,603 |
京都府 | 7,631 |
新潟県 | 7,217 |
岐阜県 | 6,699 |
福岡県 | 6,174 |
千葉県 | 5,716 |
東京都 | 5,358 |
| tstats count where source="address.zip:*" shikuchousonmei="横須賀市" by oazamachichoumokumei
| rex field=oazamachichoumokumei "(?<machi>.*)(?<choume>.丁目)"
| eval machi=coalesce(machi,oazamachichoumokumei)
| stats count by machi
町が多かった。
INDEXED_EXTRACTIONS
の利点はtstats
がそのまま使えるところ。
まとめ
日本語のヘッダーはtransforms.conf
でやると上手くいくけど、正規表現で書かなきゃいけないのがかなりめんどいです。
日本語フィールド名は一応対応していないことになっていますし。
最後出力するときにrename
使って変更しましょう
Author And Source
この問題について(Splunk 住所マスターデータを取り込む), 我々は、より多くの情報をここで見つけました https://qiita.com/toshikawa/items/6cd940ed6e5241875db4著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .