Downsubでダウンロードした字幕を正規表現を使って整形


経緯と達成目標

海外の講演やコースを、字幕を出しながら見る時に、内容によっては映像は不要で、テキストだけ見れればいいと感じる時がある。
その時に、以下のサイトを使って字幕をダウンロードした。

[Downsub] Youtube字幕ダウンロードサイト
(https://downsub.com/)

英語の解説を同時進行で理解できるほど英語は得意ではない。
生成されたテキストをさらにgoogle翻訳やdeeplなど、翻訳サイトにかけて日本語訳して読むわけだが、Downsubの生成形の都合で、改行や動画中のタイミングが文章の区切りに関係なく差し込まれる。
そのまま翻訳するとそれらがネックになってかなり違和感のある訳文になる。

そこで、より翻訳時に解読しやすいよう、正規表現を用いて生成されたテキストの不要な情報をカットし、改行位置も正したい。
以下にその手順を記録する。

環境

VS code 1.47.2

手順

形式は、
(正規表現検索)→ (置き換えテキスト)
とする。

  1. ^\d+ → ""
  2. :\d{2}:\d{2},\d{3} --> \d{2}:\d{2}:\d{2},\d{3} → ""
  3. ^\n → ""
  4. $\n → " "
  5. . → .\n\n

それぞれの処理内容

1.文頭数字二文字を空文字(削除)
2.タイミングを削除
3.文頭改行削除
4.文末改行を削除、空白挿入
5.文字列.を検索、ピリオドの後を2行分改行

まとめ

ダウンロードしたファイルに上記の処理をすることで、翻訳を通した時により読みやすい文章になる。
海外のYouTubeチャンネルなどで学習するときは活用して欲しい。