Pandsのread_csv関数のパラメータ分析の詳細


関数プロトタイプ
pd.read_csv(filepath_or_buffer, sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=False, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, skip_footer=0, doublequote=True, delim_whitespace=False, as_recarray=False, compact_ints=False, use_unsigned=False, low_memory=True, buffer_lines=None, memory_map=False, float_precision=None)
必須パラメータ

filepath_or_buffer : str,pathlib。str, pathlib.Path,
py._path.local.LocalPath or any object with a read() method 
(such as a file handle or StringIO)
ファイルパスを読み取り、URLとすることができ、利用可能なURLタイプは、http、ftp、s 3とファイルを含む。
通常のパラメータ
sep:str,default','
セパレータを指定します。パラメータを指定しない場合は、カンマ区切りを使用してみます。csvファイルは一般的にカンマ区切りです。
delimiter:str、default None
デリミタ、代替セミタ(このパラメータを指定すると、sepパラメータが無効になります)
delim_whiteespace:book,default False.
スペース(例えば'または'')をセパレータとして使用するかどうかは、設定sep='\s+'と等価です。
このパラメータがTureに設定されているとデリミタパラメータが無効になります。
header:int or list of ints、default‘infer’
列名、データ開始行数として行を指定します。ファイルに列名がない場合は、デフォルトは0です。さもなければ、Noneに設定します。データの読み取りには、ヘッダがある場合と、ヘッダがない場合があります。
header:int or list of ints、default‘infer’
列名、データ開始行数として行を指定します。ファイルに列名がない場合は、デフォルトは0です。さもなければ、Noneに設定します。
names:  array-like,default None
結果の列名のリストに、列ごとに名前を変更すると、表のヘッダが追加されます。
データにはヘッダがありますが、新しいヘッダを使いたいです。header=0、names=「'a'、'b'」を設定して、ヘッダーをカスタマイズできます。
index_col:int or sequence or False、default None
行の索引として使用する列番号または列名は、1つの列を指定すると複数の行の索引があります。
使用可能なindex_col=[0,1]は、ファイルの1番目と2番目の列を索引列として指定します。
usecols:array-like、default None
データサブセットを返します。つまり、いくつかの列を選択して、ファイル全体の内容を読み取らないと、速度を上げたりメモリを落としたりするのに役立ちます。
usecols=[1,2]またはusercols=[a','b']
スクウェア:book,default False
ファイルが一列しか含まれていない場合、Seriesを返します。
prefix:  str,default None
列のタイトルがない場合は、列にプレフィックスを追加します。例えば、「X」を追加してX 0、X 1、…
マングdupecols:bollan、default True
重複する列は、‘X’…X'を‘X.0’と表します。Falseに設定すると、すべての名前が上書きされます。
あまり一般的なパラメータではありません
dtype:Type name or dict of column->type、default None
列ごとのデータの種類。例えば{a':np.float 64、‘b’:np.int 32}
engine:  {‘c'、'python'、'optionl
使用する分析エンジン。Cまたはpythonを選択できます。Cエンジンは早いですが、Pythonエンジンの機能はもっと整っています。
converters:dict,default None
列変換関数の辞書。keyは、列名または列の番号であってもよい。
トゥルー.valuesとfalse_values:  リスト、default None
Values to consider as True or False
skyipitialspace:bollan、default False
セパレータ後の空白を無視する(デフォルトはFalseで、無視しない)
skyiprows:list-like or integer、default None
無視する行数(ファイルの先頭から計算する)、またはスキップする行数リスト(0から開始する)が必要です。
skyipfooter:int,default 0
ファイルの最後から無視します。cエンジンはサポートされていません。)
nrows:int,default None
読み込む行数(ファイルヘッダから計算します)が必要です。
なvalues:scalar、str、list-like、or dict、default None
NA/NaNの値を置換するグループです。参照する場合は、特定の列の空の値を指定する必要があります。
デフォルトでは‘1.萼IND’、‘1.33751;QNAN’、‘N/A’、‘NA’、‘NULL’、‘NaN’、‘nan’`。
keep_default_ナ:  ブック、default True
指定したらなぃvaluesパラメータ、そしてkeep_default_ナ=Falseなら、デフォルトのNaNが上書きされます。そうでなければ追加されます。
なfilter:bootlean、default True
失われた値(空の文字列または空の値)を確認しますか?
大きなファイルにとってデータセットに空き値がなく、設定なんです。filter=Falseは読み取り速度を上げることができます。
verbose:bollan、default False
各種の解析器の出力情報を印刷するかどうか、例えば「非数値列における欠損値の数」など。
スカイプブランクライン:book、default True
Trueであれば、空行をスキップします。NaNと表記しないといけません。
encoding:str、default None
文字セットの種類を指定します。通常は'utf-8'.List of Python standard encodingsと指定します。
dialect:str or csv.Dialect instance、default None
特定の言語が指定されていない場合、sepが1文字以上の場合は無視されます。具体的にcsv.Dialect文書を調べます。
tupleize_cols:bollan、default False
Leave a list of tuples on columns as is(default is to convert to a Multi Index on the columns)
error_bad_ライン:book、default True
行に多すぎる列が含まれている場合、デフォルトはDataFrameに戻りません。falseに設定すると、改行は削除されます。
warn_bad_ライン:book、default True
もしerrorがbad_ライン=False、そしてwarn_bad_LINE=Trueでは、すべての「bad lines」が出力されます。
low_memory:book,default True
ブロック分けしてメモリにロードし、低メモリ消費で解析します。しかし、タイプが紛らわしいかもしれません。
タイプが混同されないようにするには、Falseに設定する必要があります。またはdtypeパラメータでタイプを指定します。
注意chunksizeまたはiteratorパラメータを使用してブロック分けして読み込むと、ファイル全体を一つのDataframeに読み込まれます。
無視タイプ(C解析器でのみ有効)
日付タイプに関するパラメータ
パーシ_dates:boot or list of ints or names or list of lists or dict、default False
bootlean.True->解析インデックス
リストオブints or names.e.g.If[1,2,3]->1,2,3列の値を独立した日付列として解析する。
list of lists.e.g.If[[1,3]-]を統合して1,3列を日付列として使用します。
dict,e.g.{foo':[1,3]->を1,3列に統合し、統合した列をfooと名付けます。
例:df=pd.read_csv(file_)path、パールスdates=['time 1','time 2']
time 1とtime 2の列を日付形式に解析します。
ここで言わなければならないのですが、残念ながら中国語はだめです。例えば「4月5日」というフォーマットは解析できません。
 infer_datetimeformat:boot an、default False
Trueに設定されていて、パーシャ_datesが利用可能であれば、pandsは日付タイプに変換してみます。
場合によっては5~10倍早い。
keep_date_col:bollan、default False
複数の列解析日が接続されている場合は、接続に参加する列を維持します。デフォルトはFalseです。
date_パー:  function、default None
解析日付の関数では、デフォルトではdateutil.parser.parserを使用して変換します。
Pandsは三つの異なる方法で解析を試みています。問題があれば次の方法を使います。
1.1つ以上のアラズを使用する(パーrse_より)パラメータとして指定します。
2.接続指定複数列文字列をパラメータとして一列として指定します。
3.行ごとに一回date_を呼び出します。パーサー関数は、1つまたは複数の文字列を解析します。パラメータとしてdatesで指定します。
dayfirst:boot an、default False
DD/MMフォーマットの日付タイプ
大ファイルの共通パラメータ
iterator:bollan、default False
ブロックごとにファイルを処理するためにText FileReaderオブジェクトを返します。
chunksize:int,default None
ファイルブロックのサイズは、See IO Tools docs for more information non iterator and chunksizeです。
chunksize:int,default None
ファイルブロックのサイズは、See IO Tools docs for more information non iterator and chunksizeです。
chunksize:int,default None
ファイルブロックのサイズは、See IO Tools docs for more information non iterator and chunksizeです。
decimal:str,default''
文字の小数点(例えば、ヨーロッパのデータ使用'、')
float.precision:string、default None
Specifies which converter the C engine shound use for float-point values.
The options are None for the ordinary converter、high-precision converter、
and round_trip for the round-trip converter.
lineaterminator:str(length 1)、default None
行のセパレータは、C解像器でのみ使用されます。
quot techar:str(length 1)、optional
引用符は、開始と解釈を識別する文字として使用され、引用符内の分割記号は無視されます。
quot ting:int or csv.QUOTE*。instance、default 0
csvの引用符定数を制御します。
オプションQUOTE_MINIMAL(0)、QUOTE_ALL(1)、QUOTE_NONUMERIC(2)or QUOTE_NONE(3)
double:boot,default True
ダブルクォーテーションマークは、シングルクォーテーションマークが定義されています。NONEの時、
二重引用符を使用して引用符内の要素を元素として使用します。
escapechar:str(length 1)、default None
「QUOTE」という言葉がありますNONEの場合は、1文字分の区切り値から除外するよう指定します。
コメント:str,default None
余分な行が表示されています。解析されません。行頭に文字が現れると、この行はすべて無視されます。
このパラメータは一つの文字しかできません。ブランクライン=True)コメント行はheaderとskyperowsによって無視されます。
例えば、comment=''菗'解析'菗empptya,b,c 1,2,3'をheader=0で指定したら、結果は'a,b,c'をheaderとして返します。
複数のファイルを読み込みます

#      
import pandas
import glob
for r in glob.glob("test*.csv"):
    csv=pandas.read_csv(r)
    csv.to_csv("test.txt",mode="a+")
以上が本文の全部です。皆さんの勉強に役に立つように、私たちを応援してください。