どのようにApache Sparkを使用してログデータ解析を構築するには?
3214 ワード
このブログで火花のログデータを処理する方法を見ていきます.最初にログ構造を理解し、ログパターンにマッチする正規表現を記述し、値を取り出してsome data analytics services ログデータ.
まず、ログデータをどのように処理しようとしているかを見てみましょう.
私は、下の場所にあるログファイルがあります.
では、このログデータのいくつかの行をスパークを使って読みましょう.
closest garage to me
ここでログクラスにあるすべてのフィールドを持つケースクラスを書きましょうcreate RDD of type Access Log .
次に、以下のような正規表現を使用してログデータにマッチするパターンを作成します.
ここでログデータを解析するScala関数を作成し、RDDを作成するために使用できるCASEクラスのオブジェクトを作成しましょう.
このログデータを読み込んで、それを解析してrdd [ accesslog ]を作成します.
次に、上位10の応答コードを降順でカウントします.
まず、ログデータをどのように処理しようとしているかを見てみましょう.
サンプルログデータ:
83.149.9.216 - - [17/May/2015:10:05:03 +0000] "GET
/presentations/logstash-monitorama-2013/images/kibana-search.png
HTTP/1.1" 200 203023
"http://semicomplete.com/presentations/logstash-monitorama-2013/"
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_1) AppleWebKit/537.36
(KHTML, like Gecko) Chrome/32.0.1700.77 Safari/537.36"
さあ、これを壊しましょうlog data そして、それぞれが表すものを理解してください.
83.149.9.216 – IPAddress
- - ClientId
- - userId
[17/May/2015:10:05:03 +0000] – dateTime
GET – Method
/presentations/logstash-monitorama-2013/images/kibana-search.png
– endpoint
HTTP/1.1 – protocol
200 – responseCode
203023 – contentSize
"http://semicomplete.com/presentations/logstash-monitorama-2013/" – URL
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_1) AppleWebKit/537.36
(KHTML, like Gecko) Chrome/32.0.1700.77 Safari/537.36" – browser
このログデータをApache Spark Badricks環境で処理するコードを書きましょう.私は、下の場所にあるログファイルがあります.

では、このログデータのいくつかの行をスパークを使って読みましょう.


ここでログクラスにあるすべてのフィールドを持つケースクラスを書きましょうcreate RDD of type Access Log .

次に、以下のような正規表現を使用してログデータにマッチするパターンを作成します.

ここでログデータを解析するScala関数を作成し、RDDを作成するために使用できるCASEクラスのオブジェクトを作成しましょう.

このログデータを読み込んで、それを解析してrdd [ accesslog ]を作成します.

次に、上位10の応答コードを降順でカウントします.
Reference
この問題について(どのようにApache Sparkを使用してログデータ解析を構築するには?), 我々は、より多くの情報をここで見つけました https://dev.to/divyeshaegis/how-to-build-log-data-analytics-using-apache-spark-58npテキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol