pandsはDataFrame.apped方法で得られたデータを使ってData Frame.drop_を使います.duplicates方法は重さに行って失敗して、問題はデータのタイプで一致しません.
3628 ワード
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop_duplicates.菗煍padas.DataFrame.drop_duplicates
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.append.html#pandas.DataFrame.append
二つのDataFrame方法の公式説明を差し上げます.
2020年2月10日に問題点を発見しました.自問自答してください.
元はデータタイプが違っていますが、デフォルトのpd.read_csvはいくつかのデータをint、floatなどのタイプに変換しますが、新しいデータは全部strですので、重たくはいけません.df 1=df 1.astype(type(“1”)は全部strに変換して再び重ければいいです.dataFrameデータのタイプを変更する参考にしてください.https://blog.csdn.net/python_ai_ロード/アート/detail/81158376
もちろん、csvを読み込む時に、データの種類を指定して、パンダス公式説明文書を参照してもいいです.https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.highlight=read_csv菵パンdas.read_csv
データの列が多すぎて、指定が不便なら、すべてstrに変えましょう.
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.append.html#pandas.DataFrame.append
二つのDataFrame方法の公式説明を差し上げます.
df0 = pd.read_csv(file_name)
df0 = df0.append(df,ignore_index=True)
df0.drop_duplicates(subset="trade_date", inplace=True)
print(df0)
df0.to_csv(file_name, index=False)
df0 = pd.read_csv(file_name)
df0.drop_duplicates(subset="trade_date", inplace=True)
print(df0)
trade_date ggt_ss ggt_sz hgt sgt north_money south_money
0 20190829 1960.0 418.0 567.11 199.79 766.90 2378.0
1 20190828 1687.0 493.0 -112.55 -303.25 -415.80 2180.0
2 20190827 2621.0 762.0 7371.21 4394.13 11765.34 3383.0
3 20190826 4005.0 1599.0 -2107.11 -530.21 -2637.32 5604.0
4 20190823 2041.0 1013.0 91.95 1446.33 1538.28 3054.0
10 20190822 2384.0 554.0 643.87 1268.83 1912.70 2938.0
11 20190821 2089.0 927.0 1432.15 891.26 2323.41 3016.0
12 20190820 1978.0 1007.0 -367.52 -471.31 -838.83 2985.0
13 20190819 2075.0 1395.0 3861.04 4621.52 8482.56 3470.0
14 20190816 3811.0 1726.0 -102.61 253.84 151.23 5537.0
25 20190829 1960.0 418.0 567.11 199.79 766.90 2378.0
26 20190828 1687.0 493.0 -112.55 -303.25 -415.80 2180.0
27 20190827 2621.0 762.0 7371.21 4394.13 11765.34 3383.0
28 20190826 4005.0 1599.0 -2107.11 -530.21 -2637.32 5604.0
29 20190823 2041.0 1013.0 91.95 1446.33 1538.28 3054.0
30 20190822 2384.0 554.0 643.87 1268.83 1912.70 2938.0
31 20190821 2089.0 927.0 1432.15 891.26 2323.41 3016.0
32 20190820 1978.0 1007.0 -367.52 -471.31 -838.83 2985.0
33 20190819 2075.0 1395.0 3861.04 4621.52 8482.56 3470.0
34 20190816 3811.0 1726.0 -102.61 253.84 151.23 5537.0
trade_date ggt_ss ggt_sz hgt sgt north_money south_money
0 20190829 1960.0 418.0 567.11 199.79 766.90 2378.0
1 20190828 1687.0 493.0 -112.55 -303.25 -415.80 2180.0
2 20190827 2621.0 762.0 7371.21 4394.13 11765.34 3383.0
3 20190826 4005.0 1599.0 -2107.11 -530.21 -2637.32 5604.0
4 20190823 2041.0 1013.0 91.95 1446.33 1538.28 3054.0
5 20190822 2384.0 554.0 643.87 1268.83 1912.70 2938.0
6 20190821 2089.0 927.0 1432.15 891.26 2323.41 3016.0
7 20190820 1978.0 1007.0 -367.52 -471.31 -838.83 2985.0
8 20190819 2075.0 1395.0 3861.04 4621.52 8482.56 3470.0
9 20190816 3811.0 1726.0 -102.61 253.84 151.23 5537.0
読んでいるデータはdf.to_です.csvで書いたデータはフォーマットが同じですが、だめです.最後にappedのデータを先にto_してみます.csvまたread_csv、そしてdrop_duplicates、この時重いことに行くことができることを発見して、どうして知らないで、本質はきっとpansdasがここが重複していることがないと思って、しかしどうしてですか?2020年2月10日に問題点を発見しました.自問自答してください.
元はデータタイプが違っていますが、デフォルトのpd.read_csvはいくつかのデータをint、floatなどのタイプに変換しますが、新しいデータは全部strですので、重たくはいけません.df 1=df 1.astype(type(“1”)は全部strに変換して再び重ければいいです.dataFrameデータのタイプを変更する参考にしてください.https://blog.csdn.net/python_ai_ロード/アート/detail/81158376
もちろん、csvを読み込む時に、データの種類を指定して、パンダス公式説明文書を参照してもいいです.https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.highlight=read_csv菵パンdas.read_csv
データの列が多すぎて、指定が不便なら、すべてstrに変えましょう.