pandasのcsv操作
1867 ワード
カンマ区切り値(Comma-Separated Value、CSV、文字区切り値とも呼ばれる場合があります.区切り文字はカンマでなくてもよいためです).ファイルには、表データ(数値とテキスト)が純粋なテキスト形式で格納されます.テキストは、ファイルが2進数のように解読されなければならないデータを含まない文字シーケンスであることを意味します.CSVファイルは任意の数の記録からなり、記録間はある改行文字で区切られている.各レコードはフィールドで構成され、フィールド間の区切り記号は他の文字または文字列であり、最も一般的なのはカンマまたはタブです.通常、検索レコードにはまったく同じフィールドシーケンスがあります.通常は純粋なテキストファイルです.
作者:RJzzリンク:https://www.jianshu.com/p/64bbf5f684ee出典:簡書簡書の著作権は著者の所有であり、いかなる形式の転載も著者に連絡して授権を得て出典を明記してください.
# -*- coding:utf-8 -*-
import pandas as pd
VIDEO_INFO_PATH = '/home/rjzz/dataset/video/MSVD/MSR Video Description Corpus.csv'
# Series & DataFrame Pandas
# Series
if __name__ == '__main__':
video_info = pd.read_csv(VIDEO_INFO_PATH)
# shape
print(video_info.shape)
# index ,columns
print(video_info.columns)
print(video_info.columns.name)
# MultiIndex , names
print(video_info.index)
print(video_info.index.names)
# DataFrame , 0 ,
# [] , , Series
# , DataFrame
video_id = video_info['VideoID']
video_object = video_info[['VideoID', 'Start', 'End']]
#
video_object = video_object.drop_duplicates()
print(video_object)
print(video_object.values)
# video_test = video_info[video_info['VideoID'].unique()]
# .loc[] ,
# , video_one = video_info.loc['mv89psg6zh4']
s = pd.Series([1, 2, 3, 4, 5], index=["a", "b", "c", "d", "e"])
print(u" index", s.index)
print(u" values", s.values)
print(s[1:3])
print(s['b':'d'])
:RJzz
:https://www.jianshu.com/p/64bbf5f684ee
:
, 。
作者:RJzzリンク:https://www.jianshu.com/p/64bbf5f684ee出典:簡書簡書の著作権は著者の所有であり、いかなる形式の転載も著者に連絡して授権を得て出典を明記してください.