datawhale


使えない!!!copyが出てきてカードを打ったのです
import numpy as np
import pandas as pd
df = pd.read_csv("train.csv")
df.head(3)

Out[2]: PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked 0 1 0 3 Braund, Mr. Owen Harris male 22.0 1 0 A/5 21171 7.2500 NaN S 1 2 1 1 Cumings, Mrs. John Bradley (Florence Briggs Th… female 38.0 1 0 PC 17599 71.2833 C85 C 2 3 1 3 Heikkinen, Miss. Laina female 26.0 0 0 STON/O2. 3101282 7.9250 NaN S In [3]:
1.1.3タスク3:1000行ごとに1つのデータモジュールを実行し、ブロックごとにInを読み取る[4]:
#書き込みコードchunker=pd.read_csv(「train.csv」,chunksize=1000)【思考】ブロック単位の読み取りとは?なぜブロック単位で読み込むのですか?1.1.4任務四:表頭を中国語に変更する.インデックスを乗客IDに変更[いくつかの英語の資料について、私たちは翻訳を通じて私たちのデータをより直感的に熟知することができます]PassengerId=>乗客ID Survived=>生き残るかどうかPclass=>乗客等級(1/2/3等席)Name=>乗客名Sex=>性別Age=>年齢SibSp=>従兄弟/妹個数Parch=>親子個数Ticket=>乗船チケット情報Fare=>運賃Cabin=>客室Embarked=>乗船港In[5]:
#書き込みコードdf=pd.read_csv("train.csv",names=[‘乗客ID’,‘生き残るかどうか’,‘倉庫等級’,‘氏名’,‘性別’,‘年齢’,‘兄弟姉妹個数’,‘親子個数’,‘乗船券情報’,‘運賃’,‘客室’,‘乗船港口’),index_col=‘乗客ID’,header=0)df.head()Out[5]:生存倉庫等級氏名性別年齢兄弟姉妹個数両親子女個数船票情報運賃客室乗船港乗客ID 1 0 3 Braund,Mr.Owen Harris male 22.0 A/5 21171 7.2500 NaN S 2 1 Cumings, Mrs. John Bradley (Florence Briggs Th… female 38.0 1 0 PC 17599 71.2833 C85 C 3 1 3 Heikkinen, Miss. Laina female 26.0 0 0 STON/O2. 3101282 7.9250 NaN S 4 1 1 Futrelle, Mrs. Jacques Heath (Lily May Peel) female 35.0 1 0 113803 53.1000 C123 S 5 0 3 Allen,Mr.William Henry male 35.0 0 0 0 0 0 373450 8.0500 NaN S【思考】表頭を中国語に変更する一つの考え方は、英語の額の表頭を中国語に置き換えることです.他に方法はありますか?1.2データの導入を初歩的に観察した後、データの全体構造とサンプルを概観することができます.例えば、データサイズ、列の数、各列がどのようなフォーマットであるか、nullなど1.2.1タスク1を含むかどうか、データの基本情報Inを表示する[6]:
#書き込みコードdf.info() ​ Int64Index: 891 entries, 1 to 891 Data columns (total 11 columns):
Column Non-Null Count Dtype
0生存かどうか891 non-null int 64 1倉庫レベル891 non-null int 64 2名前891 non-null object 3性別891 non-null object 4年齢714 non-null float 64 5兄弟姉妹個数891 non-null int 64 6親子個数891 non-null int 64 7乗船チケット情報891 non-null object 8運賃891 non-null float 64 9客室204 non-null object 10乗船港889non-null object dtype:float 64(2)、int 64(4)、object(5)memory usage:83.5+KB【ヒント】このようにすることができる複数の関数があり、1.2.2タスク2をまとめることができます.表の最初の10行のデータと後の15行のデータInを観察することができます[7]:
#書き込みコードdf.head(10)Out[7]:生存倉庫レベル氏名性別年齢兄弟姉妹数両親子供数船票情報運賃客室乗船港乗客ID 1 0 3 Braund,Mr.Owen Harris male 22.0 A/5 21171 7.2500 NaN S 2 1 Cumings, Mrs. John Bradley (Florence Briggs Th… female 38.0 1 0 PC 17599 71.2833 C85 C 3 1 3 Heikkinen, Miss. Laina female 26.0 0 0 STON/O2. 3101282 7.9250 NaN S 4 1 1 Futrelle, Mrs. Jacques Heath (Lily May Peel) female 35.0 1 0 113803 53.1000 C123 S 5 0 3 Allen, Mr. William Henry male 35.0 0 0 373450 8.0500 NaN S 6 0 3 Moran, Mr. James male NaN 0 0 330877 8.4583 NaN Q 7 0 1 McCarthy, Mr. Timothy J male 54.0 0 0 17463 51.8625 E46 S 8 0 3 Palsson, Master. Gosta Leonard male 2.0 3 1 349909 21.0750 NaN S 9 1 3 Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg) female 27.0 0 2 347742 11.1333 NaN S 10 1 2 Nasser, Mrs. Nicholas (Adele Achem) female 14.0 1 0 237736 30.0708 NaN C In [8]:
#書き込みコードdf.tail(15)Out[8]:生存倉庫等級氏名性別年齢兄弟姉妹個数両親子女個数乗船切符情報運賃客室乗船港乗客ID 877 0 3 Gustafsson,Mr.Alfred Ossian male 20.0 0 0 7534 9.8458 NaN S 878 0 3 Petroff,Mr.Nedelio male 19.0 0 349212 7.8958 NaN S 879 0 3 Laleff, Mr. Kristo male NaN 0 0 349217 7.8958 NaN S 880 1 1 Potter, Mrs. Thomas Jr (Lily Alexenia Wilson) female 56.0 0 1 11767 83.1583 C50 C 881 1 2 Shelley, Mrs. William (Imanita Parrish Hall) female 25.0 0 1 230433 26.0000 NaN S 882 0 3 Markun, Mr. Johann male 33.0 0 0 349257 7.8958 NaN S 883 0 3 Dahlberg, Miss. Gerda Ulrika female 22.0 0 0 7552 10.5167 NaN S 884 0 2 Banfield, Mr. Frederick James male 28.0 0 0 C.A./SOTON 34068 10.5000 NaN S 885 0 3 Sutehall, Mr. Henry Jr male 25.0 0 0 SOTON/OQ 392076 7.0500 NaN S 886 0 3 Rice, Mrs. William (Margaret Norton) female 39.0 0 5 382652 29.1250 NaN Q 887 0 2 Montvila, Rev. Juozas male 27.0 0 0 211536 13.0000 NaN S 888 1 1 Graham, Miss. Margaret Edith female 19.0 0 0 112053 30.0000 B42 S 889 0 3 Johnston, Miss. Catherine Helen"Carrie"female NaN 1 2 W./C.6607 23.4500 NaN S 890 1 Behr,Mr.Karl Howell male 26.0 0 111369 300000 C 148 C 891 0 3 Dooley,Mr.Patrick male 32.0 370376 7.7500 NaN Q 1.2.4タスク3:データが空かどうかを判断し、空の場所でTrueに戻り、残りの場所でFalse Inに戻る[9]:
#書き込みコードdf.isnull().head() ​ Out[9]:生存倉庫レベル名前性別年齢兄弟姉妹数親子数船券情報運賃客室乗船港乗客ID 1 False False False False False False False False False False False False False True False False False False False False False False False False False False False False False False False False False False False False False False False False False False False False False False False False False False False False False False False Falslse False False False False False False False False False False 5 False False False False False False False False False False False False False False True False【まとめ】上記の操作は、データ分析におけるデータそのものに対する観察【考え】一つのデータに対して、どのような面から観察することができますか?答えを探して、これは次のデータ分析に役立ちます1.3データを保存します1.3.1タスク1:あなたをロードして変更したデータを、作業ディレクトリの下で新しいファイルtrainとして保存します.chinese.csv In [10]:
#書き込みコードdf.to_csv(「train_chinese.csv」)【まとめ】データのロードと入門、次にデータ自体の演算に触れ、numpyとpandasの仕事とプロジェクトシーンでの運用を主に把握します.In [ ]:
​ In [ ]:
​uuu