pythonはtxtファイルを一括操作し、その内容を変更します.

1240 ワード

タスク要件
大量のtxtフォーマットの小説に対してその中のURLを削除します
解決方法:
ディレクトリの下にあるすべてのファイルを一覧表示
ファイルの読み込み
ファイルのURLを置き換える(すべて中国語小説で、直接英語を置き換えることができます)
新しいファイルへの書き込み
古いファイルを削除
ソースコード
import re
import os
txtlist=os.listdir("C:\\Users\SAMSUNG\PycharmProjects\LoadBaiDu\\txt\
ovel") # for d in txtlist: if(d.endswith("t")): file=open("novel\\"+d,"r",encoding="gbk",errors="ignore") # file1=open("novel\\ "+d,"w") for i in file.readlines(): file1.write(re.sub(r"[a-zA-z]","",i)) # file1.close() file.close() print(d) os.remove("novel\\"+d)

問題解決
pythonを使用する場合、テキストの符号化と復号化の問題に遭遇することがよくあります.その中でよく見られる復号化エラーは、タイトルに示すように、このエラーの解決方法を紹介し、「gbk」を「utf-8」に置き換えるのも適用されます.(1)、まずテキストを開くときに、open(‘1.txt’,encoding=’gbk’);(2)、(1)解決できない場合、テキストに現れるいくつかの特殊な記号がgbkの符号化範囲を超えている可能性があり、open(‘1.txt’,encoding=’gb 18030’)のような符号化範囲の広い「gb 18030」を選択することができる.(3)、(2)が解決できない場合、説明文には「gb 18030」も符号化できない文字が現れ、open(‘1.txt’,encoding=’gb 18030’,errors=‘ignore’)などの「ignore」属性を使用して無視することができる.(4)、open(‘1.txt’)という一般的な解決方法もある.read().decode(‘gb18030’,’ignore’)