スパルタコードクラブパイソンアトラクション3日目
934 ワード
データ洗浄とは?
データの不完全な部分、不正確な部分、または関連しない部分を検索または削除または変更するための前処理プロセスのプロセス.表にスペース、単位エラー、スペルエラーなどがある場合は、分析前に必要な結果は得られません.私たちの場合、書き出したKakaoTalkを開くと、日付、時間、プロファイル名などの無意味な部分が繰り返されるので、これらを削除しなければなりません.そうすれば、実際に使われている単語をより面白く強調することができます.
いいですよ.
from wordcloud import WordCloud
text = ""
with open("kakaotalk.txt", "r", encoding="utf-8") as file:
lines = file.readlines()
for line in lines:
if '] [' in line:
text += line.split('] ')[2].replace('ㅋ','').replace('ㅠ','').replace('ㅜ','').replace('사진\n','').replac
font_path = 'C:/Windows/Fonts/CoreGTM3.otf'
wc = WordCloud(font_path=font_path, background_color="white", width=600, height=400)
wc.generate(text)
wc.to_file("result.png")
Reference
この問題について(スパルタコードクラブパイソンアトラクション3日目), 我々は、より多くの情報をここで見つけました https://velog.io/@keepithunnyt/스파르타-코딩클럽-파이썬-갖고놀기-패키지-3일차テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol