pandasのcsv操作

1867 ワード

カンマ区切り値(Comma-Separated Value、CSV、文字区切り値とも呼ばれる場合があります.区切り文字はカンマでなくてもよいためです).ファイルには、表データ(数値とテキスト)が純粋なテキスト形式で格納されます.テキストは、ファイルが2進数のように解読されなければならないデータを含まない文字シーケンスであることを意味します.CSVファイルは任意の数の記録からなり、記録間はある改行文字で区切られている.各レコードはフィールドで構成され、フィールド間の区切り記号は他の文字または文字列であり、最も一般的なのはカンマまたはタブです.通常、検索レコードにはまったく同じフィールドシーケンスがあります.通常は純粋なテキストファイルです.
# -*- coding:utf-8 -*-
import pandas as pd

VIDEO_INFO_PATH = '/home/rjzz/dataset/video/MSVD/MSR Video Description Corpus.csv'

# Series & DataFrame Pandas         
# Series

if __name__ == '__main__':
    video_info = pd.read_csv(VIDEO_INFO_PATH)

    # shape          
    print(video_info.shape)

    # index     ,columns     
    print(video_info.columns)
    print(video_info.columns.name)

    #              MultiIndex  ,          names    
    print(video_info.index)
    print(video_info.index.names)

    # DataFrame      , 0    ,      
    # []                 ,         ,     Series  
    #         ,     DataFrame  
    video_id = video_info['VideoID']
    video_object = video_info[['VideoID', 'Start', 'End']]

    #       
    video_object = video_object.drop_duplicates()
    print(video_object)
    print(video_object.values)
    # video_test = video_info[video_info['VideoID'].unique()]

    # .loc[]             ,         
    #          ,      video_one = video_info.loc['mv89psg6zh4']

    s = pd.Series([1, 2, 3, 4, 5], index=["a", "b", "c", "d", "e"])
    print(u" index", s.index)
    print(u" values", s.values)
    print(s[1:3])
    print(s['b':'d'])

  :RJzz
  :https://www.jianshu.com/p/64bbf5f684ee
  :  
          ,                      。

作者:RJzzリンク:https://www.jianshu.com/p/64bbf5f684ee出典:簡書簡書の著作権は著者の所有であり、いかなる形式の転載も著者に連絡して授権を得て出典を明記してください.