pythonはtxtファイルを一括操作し、その内容を変更します.
1240 ワード
タスク要件
大量のtxtフォーマットの小説に対してその中のURLを削除します
解決方法:
ディレクトリの下にあるすべてのファイルを一覧表示
ファイルの読み込み
ファイルのURLを置き換える(すべて中国語小説で、直接英語を置き換えることができます)
新しいファイルへの書き込み
古いファイルを削除
ソースコード
問題解決
pythonを使用する場合、テキストの符号化と復号化の問題に遭遇することがよくあります.その中でよく見られる復号化エラーは、タイトルに示すように、このエラーの解決方法を紹介し、「gbk」を「utf-8」に置き換えるのも適用されます.(1)、まずテキストを開くときに、open(‘1.txt’,encoding=’gbk’);(2)、(1)解決できない場合、テキストに現れるいくつかの特殊な記号がgbkの符号化範囲を超えている可能性があり、open(‘1.txt’,encoding=’gb 18030’)のような符号化範囲の広い「gb 18030」を選択することができる.(3)、(2)が解決できない場合、説明文には「gb 18030」も符号化できない文字が現れ、open(‘1.txt’,encoding=’gb 18030’,errors=‘ignore’)などの「ignore」属性を使用して無視することができる.(4)、open(‘1.txt’)という一般的な解決方法もある.read().decode(‘gb18030’,’ignore’)
大量のtxtフォーマットの小説に対してその中のURLを削除します
解決方法:
ディレクトリの下にあるすべてのファイルを一覧表示
ファイルの読み込み
ファイルのURLを置き換える(すべて中国語小説で、直接英語を置き換えることができます)
新しいファイルへの書き込み
古いファイルを削除
ソースコード
import re
import os
txtlist=os.listdir("C:\\Users\SAMSUNG\PycharmProjects\LoadBaiDu\\txt\
ovel") #
for d in txtlist:
if(d.endswith("t")):
file=open("novel\\"+d,"r",encoding="gbk",errors="ignore") #
file1=open("novel\\ "+d,"w")
for i in file.readlines():
file1.write(re.sub(r"[a-zA-z]","",i)) #
file1.close()
file.close()
print(d)
os.remove("novel\\"+d)
問題解決
pythonを使用する場合、テキストの符号化と復号化の問題に遭遇することがよくあります.その中でよく見られる復号化エラーは、タイトルに示すように、このエラーの解決方法を紹介し、「gbk」を「utf-8」に置き換えるのも適用されます.(1)、まずテキストを開くときに、open(‘1.txt’,encoding=’gbk’);(2)、(1)解決できない場合、テキストに現れるいくつかの特殊な記号がgbkの符号化範囲を超えている可能性があり、open(‘1.txt’,encoding=’gb 18030’)のような符号化範囲の広い「gb 18030」を選択することができる.(3)、(2)が解決できない場合、説明文には「gb 18030」も符号化できない文字が現れ、open(‘1.txt’,encoding=’gb 18030’,errors=‘ignore’)などの「ignore」属性を使用して無視することができる.(4)、open(‘1.txt’)という一般的な解決方法もある.read().decode(‘gb18030’,’ignore’)