スパルタコードクラブパイソンアトラクション3日目



データ洗浄とは?
データの不完全な部分、不正確な部分、または関連しない部分を検索または削除または変更するための前処理プロセスのプロセス.表にスペース、単位エラー、スペルエラーなどがある場合は、分析前に必要な結果は得られません.私たちの場合、書き出したKakaoTalkを開くと、日付、時間、プロファイル名などの無意味な部分が繰り返されるので、これらを削除しなければなりません.そうすれば、実際に使われている単語をより面白く強調することができます.
いいですよ.
from wordcloud import WordCloud
text = ""

with open("kakaotalk.txt", "r", encoding="utf-8") as file:
lines = file.readlines()
for line in lines:
if '] [' in line:
text += line.split('] ')[2].replace('ㅋ','').replace('ㅠ','').replace('ㅜ','').replace('사진\n','').replac
font_path = 'C:/Windows/Fonts/CoreGTM3.otf'
wc = WordCloud(font_path=font_path, background_color="white", width=600, height=400)
wc.generate(text)
wc.to_file("result.png")