pythonデータ分析(一)

2065 ワード

一、データ型
1、変数名:
命名規則:(1)大文字と小文字、下線からなり、頭文字は数字と下線ではなく(2)大文字と小文字が敏感で、変数aと変数Aは異なる変数である(3)変数名はPythonの保留字ではなく、例えばclass,def,continueなど
2、データ型:
(1)論理型,すなわちブール型,0と1,TrueとFalseのみである.(2)数値型:実数、負数、0、正数を含む;(3)文字型:定義可能なすべての文字は、' '," ",''' '''一重引用符、二重引用符、三重引用符で囲まれています.文字列の前にrを付けると、文字列が元の文字列であることを示し、エスケープ文字を使用する必要はなく、'''... '''文字列に複数行の文字を入力できる.
3、演算規則:
(1)&( ),|( ),not( )論理型データ型の演算に用いる.(2)加減乗除、(+ , - , * , /)数値型データ型の演算に用いる整数演算://、余剰演算を求める:%、乗:**、Decimalは浮動小数点数をパッケージング演算する.
二、データ構造
1、Seriesシリーズ(列、一次元)
カラムデータと対応するインデックスが格納され、シーケンスのインデックスは0から開始されます.
アクセス:x[1]アクセスシーケンスの2番目の場所の要素.x['second']インデックスでアクセスでき、secondはxシーケンスの2番目のインデックスであり、取り出された要素はx[1]の値と同じである.境界を越えてアクセスできない
スライス:x[2:4]シーケンスの3番目、4番目の位置の要素を取り出します.1番目の値以上、2番目の値未満です.インデックス位置を指定して取得することもできますx[[0,2,1]]指定したインデックス位置に従って要素を取得します.
要素を追加:x.append(n)、nは単一要素ではなくシーケンスであり、単一要素を追加することはできない.ある値がシーケンスにあるかどうかを判断し、'2'in x.valuesで
要素を削除:x.drop(1)インデックスにより削除;x.drop(x.index[2])位置により削除x['2' != x.values]は、値に応じて削除し、削除されていない要素を残します.
2、DataFrameデータボックス(表、二次元)
複数行と複数列のデータセットを格納し、インデックスは0から開始します.
アクセス:
列別アクセスdf['age'],df[['age','name']]行別アクセスdf[1:2],行索引別アクセスdf.loc[['first','second']],行列好切片アクセスdf.iloc['0:1','0:1'],行索引別、列名別アクセスdf.at['first','name']列名の変更:
  `df.columns=['age2', 'name2']`

行索引の変更:
  `df.index=range=(1,4)`

削除:df.drop('first',axis=0)axis=0は削除行、axis=1は削除列df.drop('age',axis=1)追加:
行を追加df.loc[len(df)] = [24,'Kevin']、列を追加df['newcolumn'] = [2,4,6]