pandas文字列関数


《Python Data Analysis》
pandasにおけるベクトル化文字列関数
問題:Seriesのmap関数により、すべての文字列および正規表現メソッドが各値(lambda式または他の関数に入力)に適用されますが、NAが存在する場合はエラーが報告されます.
解決:SeriesにはNA値文字列をスキップできるいくつかの方法があり、Seriesのstr属性を介してこれらの方法にアクセスできます.
ベクトル化された文字列メソッド:
方法
説明
cat
エレメントレベルの文字列接続操作を実現し、区切り文字を指定できます.
contains
各文字列を表すときに指定したパターンを含むブール型配列を返す
count
パターン出現回数
endswith、startswith
各要素に対してx.endswith(pattern)またはx.startswith(pattern)を実行します.
findall
各文字列のパターンリストの計算
get
各要素のi番目の文字を取得
join
指定した区切り記号に基づいてSeriesの各要素の文字列を接続します.
len
文字列の長さ
lower、upper
大文字と小文字の変換
match
指定する正規表現に従って各要素に対してreを実行する.match
pad
文字列の左または右または両方に空白を追加
center
pad(side=’both’)に相当する
repeat
値を繰り返します.例えばs.str.repeat(3)は、各文字列に対してx*3を実行することに相当する
replace
見つかったパターンを指定した文字列で置換
slice
Seriesの各文字列をサブストリングで切り取る
split
区切り文字または正規表現に基づいて文字列を分割
strip、rstrip、lstrip
空白を削除