tensorflow読み書きCSVデータ
33462 ワード
たくさんのブログ記事を調べて、半日試してやっと自分の満足するコードを見つけました~~~
ほとんどのCSV形式のデータ読み書き問題では、csv
ライブラリを使用できます.例えばstocksという名前でcsvファイルには、次のような株式市場のデータがあります.Symbol,Price,Date,Time,Change,Volume
"AA",39.48,"6/11/2007","9:36am",-0.18,181800
"AIG",71.38,"6/11/2007","9:36am",-0.15,195500
"AXP",62.58,"6/11/2007","9:36am",-0.46,935000
"BA",98.31,"6/11/2007","9:36am",+0.12,104800
"C",53.08,"6/11/2007","9:36am",-0.25,360900
"CAT",78.29,"6/11/2007","9:36am",-0.23,225400
次に、これらのデータをメタグループのシーケンスとして読み込む方法を示します.import csv
with open('stocks.csv') as f:
f_csv = csv.reader(f)
headers = next(f_csv)
for row in f_csv:
# Process row
...
上記のコードでは、row
がリストになります.したがって、フィールドにアクセスするには、row[0]
を使用してSymbolにアクセスし、row[4]
を使用してChangeにアクセスする必要があります.
このような下付きアクセスは通常混同を引き起こすため、名前付きメタグループを使用することを考慮することができます.例:from collections import namedtuple
with open('stock.csv') as f:
f_csv = csv.reader(f)
headings = next(f_csv)
Row = namedtuple('Row', headings)
for r in f_csv:
row = Row(*r)
# Process row
...
これにより、下付きアクセスの代わりにrow.Symbol
やrow.Change
などのカラム名を使用できます.カラム名が正当なPython識別子である場合にのみ有効であることに注意してください.そうでない場合は、識別子以外の文字を下線に置き換えるなど、元のカラム名を変更する必要があります.
もう1つの選択肢は、データを辞書のシーケンスに読み込むことです.次のことができます.import csv
with open('stocks.csv') as f:
f_csv = csv.DictReader(f)
for row in f_csv:
# process row
...
このバージョンでは、カラム名を使用して各行のデータにアクセスできます.例えば、row['Symbol']
またはrow['Change']
CSVデータを書き込むには、csvモジュールを使用しますが、writer
オブジェクトを作成します.例:headers = ['Symbol','Price','Date','Time','Change','Volume']
rows = [('AA', 39.48, '6/11/2007', '9:36am', -0.18, 181800),
('AIG', 71.38, '6/11/2007', '9:36am', -0.15, 195500),
('AXP', 62.58, '6/11/2007', '9:36am', -0.46, 935000),
]
with open('stocks.csv','w') as f:
f_csv = csv.writer(f)
f_csv.writerow(headers)
f_csv.writerows(rows)
辞書のシーケンスのデータがある場合は、次のようにします.headers = ['Symbol', 'Price', 'Date', 'Time', 'Change', 'Volume']
rows = [{'Symbol':'AA', 'Price':39.48, 'Date':'6/11/2007',
'Time':'9:36am', 'Change':-0.18, 'Volume':181800},
{'Symbol':'AIG', 'Price': 71.38, 'Date':'6/11/2007',
'Time':'9:36am', 'Change':-0.15, 'Volume': 195500},
{'Symbol':'AXP', 'Price': 62.58, 'Date':'6/11/2007',
'Time':'9:36am', 'Change':-0.46, 'Volume': 935000},
]
with open('stocks.csv','w') as f:
f_csv = csv.DictWriter(f, headers)
f_csv.writeheader()
f_csv.writerows(rows)
ディスカッション
あなたはいつもcsvモジュールを優先してCSVデータを分割または解析する必要があります.たとえば、次のようなコードを書くことができます.with open('stocks.csv') as f:
for line in f:
row = line.split(',')
# process row
...
この方法を使用する欠点の一つは、難しい細部の問題を処理する必要があることです.たとえば、一部のフィールド値が引用符で囲まれている場合は、これらの引用符を除去する必要があります.また、引用符で囲まれたフィールドにたまたまカンマが含まれている場合、プログラムはエラーサイズの行を生成するためにエラーが発生します.
デフォルトでは、csv
ライブラリは、Microsoft Excelが使用するCSV符号化ルールを識別します.これも最も一般的な形式かもしれませんが、最高の互換性をもたらします.しかし、csvのドキュメントを表示すると、分割文字の変更など、他の符号化フォーマットに適用する方法がたくさんあります.たとえば、tabで分割されたデータを読み出したい場合は、次のようにします.# Example of reading tab-separated values
with open('stock.tsv') as f:
f_tsv = csv.reader(f, delimiter='\t')
for row in f_tsv:
# Process row
...
CSVデータを読み取り、名前付きメタグループに変換している場合は、カラム名の正当性認証に注意する必要があります.たとえば、CSV形式のファイルには、次のような不正な識別子を含む列ヘッダー行があります.Street Address,Num-Premises,Latitude,Longitude 5412 N CLARK,10,41.980262,-87.668452
これにより、最終的には、名前付きメタグループの作成時にValueError
の例外が発生し、失敗します.この問題を解決するために、まず列のタイトルを修正しなければならないかもしれません.たとえば、次のように、不正な識別子に正規表現を使用して置き換えることができます.import re
with open('stock.csv') as f:
f_csv = csv.reader(f)
headers = [ re.sub('[^a-zA-Z_]', '_', h) for h in next(f_csv) ]
Row = namedtuple('Row', headers)
for r in f_csv:
row = Row(*r)
# Process row
...
また、csvで生成されたデータは文字列タイプであり、他のタイプの変換は行われないことを強調する必要があります.このようなタイプの変換が必要な場合は、自分で手動で実現する必要があります.次に、CSVデータ上で他のタイプの変換を行う例を示します.col_types = [str, float, str, str, float, int]
with open('stocks.csv') as f:
f_csv = csv.reader(f)
headers = next(f_csv)
for row in f_csv:
# Apply conversions to the row items
row = tuple(convert(value) for convert, value in zip(col_types, row))
...
また、辞書内の特定のフィールドを変換する例を次に示します.print('Reading as dicts with type conversion')
field_types = [ ('Price', float),
('Change', float),
('Volume', int) ]
with open('stocks.csv') as f:
for row in csv.DictReader(f):
row.update((key, conversion(row[key]))
for key, conversion in field_types)
print(row)
通常、これらの変換問題をあまり考えたくないかもしれません.実際の状況では、CSVファイルは多かれ少なかれ欠落しているデータ、破壊されたデータ、その他の変換に失敗する問題があります.したがって、データが正確であることが確実に保証されていない限り、これらの問題を考慮する必要があります(適切なエラー処理メカニズムを追加する必要があるかもしれません).
最後に、CSVデータを読み取る目的がデータ分析と統計であれば、Pandas
パッケージを見る必要があるかもしれません.Pandas
は、pandas.read_csv()
という非常に便利な関数を含み、CSVデータをDataFrame
オブジェクトにロードすることができます.このオブジェクトを使用すると、さまざまな形式の統計を生成したり、データをフィルタしたり、他の高度な操作を実行したりすることができます.
参照リンク:http://python3-cookbook.readthedocs.io/zh_CN/latest/c06/p01_read_write_csv_data.html
Symbol,Price,Date,Time,Change,Volume
"AA",39.48,"6/11/2007","9:36am",-0.18,181800
"AIG",71.38,"6/11/2007","9:36am",-0.15,195500
"AXP",62.58,"6/11/2007","9:36am",-0.46,935000
"BA",98.31,"6/11/2007","9:36am",+0.12,104800
"C",53.08,"6/11/2007","9:36am",-0.25,360900
"CAT",78.29,"6/11/2007","9:36am",-0.23,225400
import csv
with open('stocks.csv') as f:
f_csv = csv.reader(f)
headers = next(f_csv)
for row in f_csv:
# Process row
...
from collections import namedtuple
with open('stock.csv') as f:
f_csv = csv.reader(f)
headings = next(f_csv)
Row = namedtuple('Row', headings)
for r in f_csv:
row = Row(*r)
# Process row
...
import csv
with open('stocks.csv') as f:
f_csv = csv.DictReader(f)
for row in f_csv:
# process row
...
headers = ['Symbol','Price','Date','Time','Change','Volume']
rows = [('AA', 39.48, '6/11/2007', '9:36am', -0.18, 181800),
('AIG', 71.38, '6/11/2007', '9:36am', -0.15, 195500),
('AXP', 62.58, '6/11/2007', '9:36am', -0.46, 935000),
]
with open('stocks.csv','w') as f:
f_csv = csv.writer(f)
f_csv.writerow(headers)
f_csv.writerows(rows)
headers = ['Symbol', 'Price', 'Date', 'Time', 'Change', 'Volume']
rows = [{'Symbol':'AA', 'Price':39.48, 'Date':'6/11/2007',
'Time':'9:36am', 'Change':-0.18, 'Volume':181800},
{'Symbol':'AIG', 'Price': 71.38, 'Date':'6/11/2007',
'Time':'9:36am', 'Change':-0.15, 'Volume': 195500},
{'Symbol':'AXP', 'Price': 62.58, 'Date':'6/11/2007',
'Time':'9:36am', 'Change':-0.46, 'Volume': 935000},
]
with open('stocks.csv','w') as f:
f_csv = csv.DictWriter(f, headers)
f_csv.writeheader()
f_csv.writerows(rows)
with open('stocks.csv') as f:
for line in f:
row = line.split(',')
# process row
...
# Example of reading tab-separated values
with open('stock.tsv') as f:
f_tsv = csv.reader(f, delimiter='\t')
for row in f_tsv:
# Process row
...
Street Address,Num-Premises,Latitude,Longitude 5412 N CLARK,10,41.980262,-87.668452
import re
with open('stock.csv') as f:
f_csv = csv.reader(f)
headers = [ re.sub('[^a-zA-Z_]', '_', h) for h in next(f_csv) ]
Row = namedtuple('Row', headers)
for r in f_csv:
row = Row(*r)
# Process row
...
col_types = [str, float, str, str, float, int]
with open('stocks.csv') as f:
f_csv = csv.reader(f)
headers = next(f_csv)
for row in f_csv:
# Apply conversions to the row items
row = tuple(convert(value) for convert, value in zip(col_types, row))
...
print('Reading as dicts with type conversion')
field_types = [ ('Price', float),
('Change', float),
('Volume', int) ]
with open('stocks.csv') as f:
for row in csv.DictReader(f):
row.update((key, conversion(row[key]))
for key, conversion in field_types)
print(row)