データ科学第3章11文字列処理
このセクションでは、関数を使用して、値に含まれる文字列を表示します.検索キーワードに似ています.主な関数は、str.*()str.len()長str.contains()に**文字が含まれています.
キーワードを探して、これらの原料を含むレシピを調べるのに使われています.現在と結びつけて、プロモーションデータを処理する際にurlのユーザーソースを設定することで分析できると思います.
ワード列の文字列の長さを見ると、平均検索語の長さは8.8、75%が検索語が10文字以内、最長は95文字
文字が50文字以上のデータを表示し、コードを実行すると2つのデータしかありません.
--特定の文字が含まれているかどうかを検索します.
str.contains
またinput()の方法で、入力した文字がword列にあるかどうかを検索することもできます.
このようにして、次の節ではタイムフォーマットの処理を学び、3章で終わり、バイバイ.
キーワードを探して、これらの原料を含むレシピを調べるのに使われています.現在と結びつけて、プロモーションデータを処理する際にurlのユーザーソースを設定することで分析できると思います.
ワード列の文字列の長さを見ると、平均検索語の長さは8.8、75%が検索語が10文字以内、最長は95文字
df.word.str.len().describe()
Out:
count 2324.000000
mean 8.767642
std 4.695302
min 0.000000
25% 6.000000
50% 8.000000
75% 10.000000
max 95.000000
Name: word, dtype: float64
文字が50文字以上のデータを表示し、コードを実行すると2つのデータしかありません.
df[df.word.str.len() > 50]
# 30 ,
df[df.word.str.len() > 30].count()
Out:
date 15
id 15
word 15
rank1 15
number1 15
url 15
dtype: int64
--特定の文字が含まれているかどうかを検索します.
str.contains
#word ‘ ’
df[df.word.str.contains(' ')]
またinput()の方法で、入力した文字がword列にあるかどうかを検索することもできます.
keyw = input()
df[df.url.str.contains(keyw)
このようにして、次の節ではタイムフォーマットの処理を学び、3章で終わり、バイバイ.