データ科学第3章11文字列処理


このセクションでは、関数を使用して、値に含まれる文字列を表示します.検索キーワードに似ています.主な関数は、str.*()str.len()長str.contains()に**文字が含まれています.
キーワードを探して、これらの原料を含むレシピを調べるのに使われています.現在と結びつけて、プロモーションデータを処理する際にurlのユーザーソースを設定することで分析できると思います.
ワード列の文字列の長さを見ると、平均検索語の長さは8.8、75%が検索語が10文字以内、最長は95文字
df.word.str.len().describe()

Out:
count    2324.000000
mean        8.767642
std         4.695302
min         0.000000
25%         6.000000
50%         8.000000
75%        10.000000
max        95.000000
Name: word, dtype: float64

文字が50文字以上のデータを表示し、コードを実行すると2つのデータしかありません.
df[df.word.str.len() > 50]

#             30       ,   
df[df.word.str.len() > 30].count()

Out:
date       15
id         15
word       15
rank1      15
number1    15
url        15
dtype: int64

--特定の文字が含まれているかどうかを検索します.
str.contains
#word   ‘ ’       
df[df.word.str.contains(' ')]

またinput()の方法で、入力した文字がword列にあるかどうかを検索することもできます.
keyw = input()
df[df.url.str.contains(keyw)

このようにして、次の節ではタイムフォーマットの処理を学び、3章で終わり、バイバイ.