シェルスクリプトマガジン「Amazonの商品ページURLをきれいにする」をやってみた

3916 ワード

sed ShellScript シェルスクリプトマガジン ShellScript テキストリンク

毎号とても楽しみにしているシェルスクリプトマガジンのサイトに、
Amazonの商品ページURLをきれいにするという記事があります。

実際に問題に取り組む思考過程が書かれており、大変参考になります。

sedの正規表現を使えばワンライナーでできそうでしたので、
いい勉強になると思いやってみました。

echo "https://www.amazon.co.jp/%E3%82%B7%E3%82%A7%E3%83%AB%E3%82%B9%E3%82%AF%E3%83%AA%E3%83%97%E3%83%88%E3%83%9E%E3%82%AC%E3%82%B8%E3%83%B3-vol-59-%E7%95%B6%E4%BB%B2%E5%AF%9B%E5%93%B2/dp/4904807561/ref=sr_1_1?__mk_ja_JP=%E3%82%AB%E3%82%BF%E3%82%AB%E3%83%8A&amp;keywords=%E3%82%B7%E3%82%A7%E3%83%AB%E3%82%B9%E3%82%AF%E3%83%AA%E3%83%97%E3%83%88%E3%83%9E%E3%82%AC%E3%82%B8%E3%83%B3&amp;qid=1553740346&amp;s=gateway&amp;sr=8-1" |
sed "s/\%.*dp\(.*\)\/.*/dp\1/g"

結果

一応できたのですが、sedの正規表現は一見してわかりづらいため、
自分への備忘録として何をしているのか以下にメモします。

やっていることはamazon.co.jp/URL/dp/文字(数字)/URLのURLを消しています。
\%.*dpでdpの前にある%から始まる文字（%E3%82%B7...E5%93%B2/）をすべて対象とします。
dp\(.*\)\/.*でdp以下の文字（数字）を記憶しつつ、それ以降のすべての文字を対象としています。
そして次のdp\1で、dpの前にある文字をすべて消して、dpの後ろの文字を\1で取り出します。それ以降のすべての文字を消します。

追記１

上のやり方だと%で開始しないURL（商品名が英語など）は対応していないので、より汎用性のある書き方にしました。

echo "https://www.amazon.co.jp/Shell-Programming-Unix-Linux-Developers-ebook/dp/B01L480ILM/ref=sr_1_3?__mk_ja_JP=%E3%82%AB%E3%82%BF%E3%82%AB%E3%83%8A&keywords=POSIX+shell&qid=1574942448&s=english-books&sr=1-3" |
sed "s#amazon.co.jp/.*dp\(.*\)/.*#amazon.co.jp/dp\1#g"

追記２

多少長くなりますが, より可読性が高い書き方です.

echo "https://www.amazon.co.jp/Shell-Programming-Unix-Linux-Developers-ebook/dp/B01L480ILM/ref=sr_1_3?__mk_ja_JP=%E3%82%AB%E3%82%BF%E3%82%AB%E3%83%8A&keywords=POSIX+shell&qid=1574942448&s=english-books&sr=1-3" |
  sed -e "s|\(https*:\)//|\1__|" -e "s|dp/|_dp_|" | #　1行下で区切りを改行にしたときに必要な情報が複数行になるのを避けるため, _でエスケープします 
  tr "/" "\n" | # 扱いやすいように区切りを改行にします
  grep -e "amazon.co.jp" -e "_dp_" |　# 必要な情報を抽出します
  awk '$1~/^http/ {printf $1; next}1' | #　1行にまとめます
  tr "_" "/"　#　エスケープをもとに戻します

Author And Source

この問題について(シェルスクリプトマガジン「Amazonの商品ページURLをきれいにする」をやってみた), 我々は、より多くの情報をここで見つけました https://qiita.com/tori_taro/items/684ab907bd9810ec4431

著者帰属：元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。

Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .

ApiBoot 2.0.6.RELEASEリリース

iOSのいくつかの属性の設定はカウントダウンボタンを完成します