思考mapreduce

667 ワード

2018/03/10にいくつかのスクリプトを書いてみましたが、実現する機能は簡単で、主にこの流れを把握したいと思っています.さらにpythonで書かれたこのスクリプトを使用して、この部分はjavaで書くべきで、pythonでもjavaのライブラリを利用して、この部分のテキストをストリーミングデータに変換することができます.pythonスクリプトは、デフォルトの入力ストリームから受信します.ここで処理するときはこの逐行方式で処理します

import sys
for line in sys.stdin:
    print line

後期、私も考えましたが、このpcapファイルを処理したいなら、このような方法で処理することもできますが、行ごとにファイルを読み取る方法とは言えません.また、このpcapを普段から扱う方法はC言語で書かれているので、対応する変換を助ける必要があるかもしれません.
今、このmapreduceモデルの理解は、pythonがファイルを読み取るように、1行が記録であり、mapの生成物はやはりreduceが理解する必要があるので、これではめちゃくちゃなものが生成されてもだめです.そして、reduceが生成したものはreduceに消化され続けることができ、combinatorのものを中間的に追加することができるのが望ましい.
ここでは主にmapreduceの全体的なプログラミングを考えることから,具体的な他のものを分析しない.

Top N 件をとる効率的なHive / Prestoクエリ

C++11の右参照およびstd::move