テキストフィールドの周波数の割合を変更する



Splunk 非構造化または構造化されたテキストの問い合わせと要約のためのツールです.Splunkを使用して、検索、要約、およびアプリケーションログに警告できます.
あなたが特定のエラーログの上昇に気づくときに電子メールまたはPageRorderを介してアラートを送信するためにSplunkを使用することができます.我々のユーザーが我々の製品で問題を経験しているとき、我々が我々のエラーログをモニターするのは、重要です.エラーは、Google Site信頼性エンジニアリング本Onlineで説明されるように、アプリケーション健康のための「黄金の信号」のうちの1つですlink ).
以下に警告する必要がある仮定ログを示します.2021-09-05T16:35:18+00:0 level=ERROR logger=com.enterprise.payments PAY - reason=null payeeId=aceja payStatus=FAILED host=appDeployment-alfzfまた、成功ログのような他のログもあります2021-09-05T13:35:18+00:0 level=INFO logger=com.enterprise.payments PAY - reason=accepted payeeId=baehg payStatus=SUCCESS host=appDeployment-alfzfログの間2021-09-05T17:35:18+00:0 level=WARN logger=com.enterprise.payments PAY - reason=decline payeeId=gaeaj payStatus=FAILED host=appDeployment-alfzf過去には、Xのエラーログを取得する際に、アラートを設定します.xは1から100エラーの数です.通常、我々は安定したトラフィック/使用しているので、これはほとんどの日、動作します.
しかし、我々のアプリケーションが高いトラフィックを取得すると、システムが正常に動作しているときでも、トリガアラートに到達することができます.私たちの警告と監視の目標は何か異常な、または例外が起こっているときに教えてください何かを修正する必要があります.我々は高いトラフィックを持っているアラートを取得する神経の打撃であり、理由のない夜遅くまで私たちを目覚める.これらの偽陽性はすぐにページャバーンアウトを作成します.
間違ったアラーム/偽陽性を避けるために、私は失敗ベースの失敗の要求のパーセンテージに基づいて、エラーの量から、我々のスプリントの警告の1つをリファクタリングしました.
以下にクエリの例を示します.index=example (PAY "FAILED" logger=com.enterprise.payments)これはXの結果より大きいときに警告する.これは、単純であるという利点があるだけでなく、高いトラフィックの間に偽陽性の欠点.私たちはどのように多くの支払いが成功したか、またはカードを拒否しただけではなく、我々のサーバーフローのエラーではなく、ユーザーのキャッシュフローで知っている.
エラーの割合を警告した後のクエリの例を示します.
index=example (PAY logger=com.enterprise.payments) 
| eval failureRate=if(match(payStatus, "FAILED"), 100, 0)
| timechart avg(failureRate) as percentFail 
| where percentFail > 5
PayStatusを数に変換することで、後にAVGを使うことができますif(match(payStatus, "FAILED"), 100, 0) . これは私たちに良い0 - 100 %タイムチャートグラフを与えます.
加えてwhere percentFail > 5 それが1つ以上の結果を見つけるとき、それは我々に警告に火をつけることができるので、重要です.Whatを使用すると結果の数が制限の割合が高いときに結果を制限します.
もう1つの利点としては、PageRoodleのアラートでSplunk Error Personを直接取得し、PageRoodをクリックしてSplunkをクリックしたときに何を期待するかを知ることができます.
私たちの警告を出力している最終的な質問は、PayeeIDによって他の関連したトランザクションログに縛られることもできます.そして、イベントのボリュームがあまりに低いなら、警告を避けて、結果テーブルの各々のログの理由を提供します:
< div >