時系列データの日付処理【メモ】

3217 ワード

前処理 pandas Excel Excel テキストリンク

何があったか

時系列データの取り扱いを学ぶためにまずは、チュートリアルでよく用いられているAirPassengersのデータを読み込むことにしました。

#モジュール
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

#時系列データ関係
from scipy import signal
from statsmodels.tsa.seasonal import seasonal_decompose
from statsmodels.tsa.seasonal import STL
from statsmodels.tsa.stattools import adfuller
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf

#データの読み込み
df1 = pd.read_csv('AirPassengers.csv', index_col='Month', parse_dates=True)

df1.head(2)

ちゃんと日付をインデックスにできているか確認したら。。。ん？
本来は1949-01-01スタートなのに、なぜか2049年始まりになっていて。
コードのエラーは出ていないけど、ちょっと気持ち悪いので直せないか調査しました。

調査したら

こんな記事を発見。

簡単にまとめるとExcelのバグらしい。記事はxlsxファイルだが今回のcsvでも同じことが起きていそう。

解消方法

csvファイルをExcelで開き、日付部分の数値の書式を標準⇒日付に変えただけ。以上。
根本的な理由は不明ですが、正しい日付で開けるようになりました。
もしかしたらバージョンにもよるかもしれません(自分が使ったExcelは2016年版)。

修正しなくても普通に読み込めるようになると個人的には嬉しいです。

参考

Author And Source

この問題について(時系列データの日付処理【メモ】), 我々は、より多くの情報をここで見つけました https://qiita.com/dem_kk/items/4c968d828d578c4ce091

著者帰属：元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。

Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .