Hiveデータインポート前処理-セパレータ処理

569 ワード

ローカルデータをhiveにインポートする必要がある場合があります.hiveフィールド間のデフォルトの区切り文字はx 01であり、インポートしたデータフィールド間ではタブで区切られることがよくあります.hiveにデータをインポートしたときに正常に認識できるように、まずデータを処理する必要があります.
最も一般的なツールは自然にsedコマンドであり、sed置換コマンドを使用すると、テキストのタブを簡単に私たちが望んでいるテキストに置き換えることができます.
では問題です.x 01は特殊な文字で、sedコマンドに直接入力するのは明らかに通用しません.ネットで資料を探して、x 01という文字がlinuxで^Aと表示されていることを知りました.では、sedコマンドにこの文字をどのように入力しますか?
操作は簡単で、まずキー:ctrl+vを押して、それから対応する文字のキーを入力して、^Aを入力するなら:ctrl+Aを押せばいいです.最終的な命令は次のとおりです.
sed -i 's/\t/^A/g' input