Pandsのread_csv関数のパラメータ分析の詳細

7672 ワード

関数プロトタイプ

pd.read_csv(filepath_or_buffer, sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=False, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, skip_footer=0, doublequote=True, delim_whitespace=False, as_recarray=False, compact_ints=False, use_unsigned=False, low_memory=True, buffer_lines=None, memory_map=False, float_precision=None)

必須パラメータ


filepath_or_buffer : str，pathlib。str, pathlib.Path,
py._path.local.LocalPath or any object with a read() method 
(such as a file handle or StringIO)

ファイルパスを読み取り、URLとすることができ、利用可能なURLタイプは、http、ftp、s 3とファイルを含む。
通常のパラメータ
sep：str，default'，'
セパレータを指定します。パラメータを指定しない場合は、カンマ区切りを使用してみます。csvファイルは一般的にカンマ区切りです。
delimiter：str、default None
デリミタ、代替セミタ（このパラメータを指定すると、sepパラメータが無効になります）
delim_whiteespace：book，default False.
スペース(例えば'または'')をセパレータとして使用するかどうかは、設定sep='\s+'と等価です。
このパラメータがTureに設定されているとデリミタパラメータが無効になります。
header：int or list of ints、default‘infer’
列名、データ開始行数として行を指定します。ファイルに列名がない場合は、デフォルトは0です。さもなければ、Noneに設定します。データの読み取りには、ヘッダがある場合と、ヘッダがない場合があります。
header：int or list of ints、default‘infer’
列名、データ開始行数として行を指定します。ファイルに列名がない場合は、デフォルトは0です。さもなければ、Noneに設定します。
names: array-like，default None
結果の列名のリストに、列ごとに名前を変更すると、表のヘッダが追加されます。
データにはヘッダがありますが、新しいヘッダを使いたいです。header=0、names=「'a'、'b'」を設定して、ヘッダーをカスタマイズできます。
index_col：int or sequence or False、default None
行の索引として使用する列番号または列名は、1つの列を指定すると複数の行の索引があります。
使用可能なindex_col=[0,1]は、ファイルの1番目と2番目の列を索引列として指定します。
usecols：array-like、default None
データサブセットを返します。つまり、いくつかの列を選択して、ファイル全体の内容を読み取らないと、速度を上げたりメモリを落としたりするのに役立ちます。
usecols=[1,2]またはusercols=[a'，'b']
スクウェア：book，default False
ファイルが一列しか含まれていない場合、Seriesを返します。
prefix: str，default None
列のタイトルがない場合は、列にプレフィックスを追加します。例えば、「X」を追加してX 0、X 1、…
マングdupecols：bollan、default True
重複する列は、‘X’…X'を‘X.0’と表します。Falseに設定すると、すべての名前が上書きされます。
あまり一般的なパラメータではありません
dtype：Type name or dict of column->type、default None
列ごとのデータの種類。例えば｛a'：np.float 64、‘b’：np.int 32｝
engine: {‘c'、'python'、'optionl
使用する分析エンジン。Cまたはpythonを選択できます。Cエンジンは早いですが、Pythonエンジンの機能はもっと整っています。
converters：dict，default None
列変換関数の辞書。keyは、列名または列の番号であってもよい。
トゥルー.valuesとfalse_values: リスト、default None
Values to consider as True or False
skyipitialspace：bollan、default False
セパレータ後の空白を無視する(デフォルトはFalseで、無視しない)
skyiprows：list-like or integer、default None
無視する行数（ファイルの先頭から計算する）、またはスキップする行数リスト（0から開始する）が必要です。
skyipfooter：int，default 0
ファイルの最後から無視します。cエンジンはサポートされていません。）
nrows：int，default None
読み込む行数（ファイルヘッダから計算します）が必要です。
なvalues：scalar、str、list-like、or dict、default None
NA/NaNの値を置換するグループです。参照する場合は、特定の列の空の値を指定する必要があります。
デフォルトでは‘1.萼IND’、‘1.33751;QNAN’、‘N/A’、‘NA’、‘NULL’、‘NaN’、‘nan’`。
keep_default_ナ: ブック、default True
指定したらなぃvaluesパラメータ、そしてkeep_default_ナ=Falseなら、デフォルトのNaNが上書きされます。そうでなければ追加されます。
なfilter：bootlean、default True
失われた値（空の文字列または空の値）を確認しますか？
大きなファイルにとってデータセットに空き値がなく、設定なんです。filter=Falseは読み取り速度を上げることができます。
verbose：bollan、default False
各種の解析器の出力情報を印刷するかどうか、例えば「非数値列における欠損値の数」など。
スカイプブランクライン：book、default True
Trueであれば、空行をスキップします。NaNと表記しないといけません。
encoding：str、default None
文字セットの種類を指定します。通常は'utf-8'.List of Python standard encodingsと指定します。
dialect：str or csv.Dialect instance、default None
特定の言語が指定されていない場合、sepが1文字以上の場合は無視されます。具体的にcsv.Dialect文書を調べます。
tupleize_cols：bollan、default False
Leave a list of tuples on columns as is（default is to convert to a Multi Index on the columns）
error_bad_ライン：book、default True
行に多すぎる列が含まれている場合、デフォルトはDataFrameに戻りません。falseに設定すると、改行は削除されます。
warn_bad_ライン：book、default True
もしerrorがbad_ライン=False、そしてwarn_bad_LINE=Trueでは、すべての「bad lines」が出力されます。
low_memory：book，default True
ブロック分けしてメモリにロードし、低メモリ消費で解析します。しかし、タイプが紛らわしいかもしれません。
タイプが混同されないようにするには、Falseに設定する必要があります。またはdtypeパラメータでタイプを指定します。
注意chunksizeまたはiteratorパラメータを使用してブロック分けして読み込むと、ファイル全体を一つのDataframeに読み込まれます。
無視タイプ（C解析器でのみ有効）
日付タイプに関するパラメータ
パーシ_dates：boot or list of ints or names or list of lists or dict、default False
bootlean.True->解析インデックス
リストオブints or names.e.g.If[1,2,3]->1,2,3列の値を独立した日付列として解析する。
list of lists.e.g.If[[1,3]-]を統合して1,3列を日付列として使用します。
dict，e.g.{foo':[1,3]->を1,3列に統合し、統合した列をfooと名付けます。
例：df=pd.read_csv(file_)path、パールスdates=['time 1'，'time 2']
time 1とtime 2の列を日付形式に解析します。
ここで言わなければならないのですが、残念ながら中国語はだめです。例えば「4月5日」というフォーマットは解析できません。
infer_datetimeformat：boot an、default False
Trueに設定されていて、パーシャ_datesが利用可能であれば、pandsは日付タイプに変換してみます。
場合によっては5～10倍早い。
keep_date_col：bollan、default False
複数の列解析日が接続されている場合は、接続に参加する列を維持します。デフォルトはFalseです。
date_パー: function、default None
解析日付の関数では、デフォルトではdateutil.parser.parserを使用して変換します。
Pandsは三つの異なる方法で解析を試みています。問題があれば次の方法を使います。
1.1つ以上のアラズを使用する（パーrse_より）パラメータとして指定します。
2.接続指定複数列文字列をパラメータとして一列として指定します。
3.行ごとに一回date_を呼び出します。パーサー関数は、1つまたは複数の文字列を解析します。パラメータとしてdatesで指定します。
dayfirst：boot an、default False
DD/MMフォーマットの日付タイプ
大ファイルの共通パラメータ
iterator：bollan、default False
ブロックごとにファイルを処理するためにText FileReaderオブジェクトを返します。
chunksize：int，default None
ファイルブロックのサイズは、See IO Tools docs for more information non iterator and chunksizeです。
chunksize：int，default None
ファイルブロックのサイズは、See IO Tools docs for more information non iterator and chunksizeです。
chunksize：int，default None
ファイルブロックのサイズは、See IO Tools docs for more information non iterator and chunksizeです。
decimal：str，default''
文字の小数点(例えば、ヨーロッパのデータ使用'、')
float.precision：string、default None
Specifies which converter the C engine shound use for float-point values.
The options are None for the ordinary converter、high-precision converter、
and round_trip for the round-trip converter.
lineaterminator：str（length 1）、default None
行のセパレータは、C解像器でのみ使用されます。
quot techar：str（length 1）、optional
引用符は、開始と解釈を識別する文字として使用され、引用符内の分割記号は無視されます。
quot ting：int or csv.QUOTE*。instance、default 0
csvの引用符定数を制御します。
オプションQUOTE_MINIMAL(0)、QUOTE_ALL（1）、QUOTE_NONUMERIC(2)or QUOTE_NONE(3)
double:boot，default True
ダブルクォーテーションマークは、シングルクォーテーションマークが定義されています。NONEの時、
二重引用符を使用して引用符内の要素を元素として使用します。
escapechar：str（length 1）、default None
「QUOTE」という言葉がありますNONEの場合は、1文字分の区切り値から除外するよう指定します。
コメント：str，default None
余分な行が表示されています。解析されません。行頭に文字が現れると、この行はすべて無視されます。
このパラメータは一つの文字しかできません。ブランクライン=True)コメント行はheaderとskyperowsによって無視されます。
例えば、comment=''菗'解析'菗empptya，b，c 1,2,3'をheader=0で指定したら、結果は'a，b，c'をheaderとして返します。
複数のファイルを読み込みます


#      
import pandas
import glob
for r in glob.glob("test*.csv"):
    csv=pandas.read_csv(r)
    csv.to_csv("test.txt",mode="a+")

以上が本文の全部です。皆さんの勉強に役に立つように、私たちを応援してください。

Java(SpringBoot)はzookeeperによる分散式ロックが実現されます。

pandsデータスクリーニングとcsv操作の実現方法