どのようにApache Sparkを使用してログデータ解析を構築するには?

3214 ワード

テキストリンク

このブログで火花のログデータを処理する方法を見ていきます.最初にログ構造を理解し、ログパターンにマッチする正規表現を記述し、値を取り出してsome data analytics services ログデータ.
まず、ログデータをどのように処理しようとしているかを見てみましょう.

サンプルログデータ:


83.149.9.216 - - [17/May/2015:10:05:03 +0000] "GET 

/presentations/logstash-monitorama-2013/images/kibana-search.png 

HTTP/1.1" 200 203023 

"http://semicomplete.com/presentations/logstash-monitorama-2013/" 

"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_1) AppleWebKit/537.36 
(KHTML, like Gecko) Chrome/32.0.1700.77 Safari/537.36"

さあ、これを壊しましょうlog data そして、それぞれが表すものを理解してください.


83.149.9.216 – IPAddress
-            - ClientId
-            - userId
[17/May/2015:10:05:03 +0000] – dateTime
GET – Method
/presentations/logstash-monitorama-2013/images/kibana-search.png 
– endpoint
HTTP/1.1 – protocol
200 – responseCode
203023 – contentSize
"http://semicomplete.com/presentations/logstash-monitorama-2013/" – URL
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_1) AppleWebKit/537.36 

(KHTML, like Gecko) Chrome/32.0.1700.77 Safari/537.36" – browser

このログデータをApache Spark Badricks環境で処理するコードを書きましょう.
私は、下の場所にあるログファイルがあります.