pandsはDataFrame.apped方法で得られたデータを使ってData Frame.drop_を使います.duplicates方法は重さに行って失敗して、問題はデータのタイプで一致しません.

3628 ワード

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop_duplicates.菗煍padas.DataFrame.drop_duplicates
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.append.html#pandas.DataFrame.append
二つのDataFrame方法の公式説明を差し上げます.
df0 = pd.read_csv(file_name)
df0 = df0.append(df,ignore_index=True)
df0.drop_duplicates(subset="trade_date", inplace=True)
print(df0)
df0.to_csv(file_name, index=False)
df0 = pd.read_csv(file_name)
df0.drop_duplicates(subset="trade_date", inplace=True)
print(df0)
 
 trade_date  ggt_ss  ggt_sz      hgt      sgt  north_money  south_money
0    20190829  1960.0   418.0   567.11   199.79       766.90       2378.0
1    20190828  1687.0   493.0  -112.55  -303.25      -415.80       2180.0
2    20190827  2621.0   762.0  7371.21  4394.13     11765.34       3383.0
3    20190826  4005.0  1599.0 -2107.11  -530.21     -2637.32       5604.0
4    20190823  2041.0  1013.0    91.95  1446.33      1538.28       3054.0
10   20190822  2384.0   554.0   643.87  1268.83      1912.70       2938.0
11   20190821  2089.0   927.0  1432.15   891.26      2323.41       3016.0
12   20190820  1978.0  1007.0  -367.52  -471.31      -838.83       2985.0
13   20190819  2075.0  1395.0  3861.04  4621.52      8482.56       3470.0
14   20190816  3811.0  1726.0  -102.61   253.84       151.23       5537.0
25   20190829  1960.0   418.0   567.11   199.79       766.90       2378.0
26   20190828  1687.0   493.0  -112.55  -303.25      -415.80       2180.0
27   20190827  2621.0   762.0  7371.21  4394.13     11765.34       3383.0
28   20190826  4005.0  1599.0 -2107.11  -530.21     -2637.32       5604.0
29   20190823  2041.0  1013.0    91.95  1446.33      1538.28       3054.0
30   20190822  2384.0   554.0   643.87  1268.83      1912.70       2938.0
31   20190821  2089.0   927.0  1432.15   891.26      2323.41       3016.0
32   20190820  1978.0  1007.0  -367.52  -471.31      -838.83       2985.0
33   20190819  2075.0  1395.0  3861.04  4621.52      8482.56       3470.0
34   20190816  3811.0  1726.0  -102.61   253.84       151.23       5537.0
   trade_date  ggt_ss  ggt_sz      hgt      sgt  north_money  south_money
0    20190829  1960.0   418.0   567.11   199.79       766.90       2378.0
1    20190828  1687.0   493.0  -112.55  -303.25      -415.80       2180.0
2    20190827  2621.0   762.0  7371.21  4394.13     11765.34       3383.0
3    20190826  4005.0  1599.0 -2107.11  -530.21     -2637.32       5604.0
4    20190823  2041.0  1013.0    91.95  1446.33      1538.28       3054.0
5    20190822  2384.0   554.0   643.87  1268.83      1912.70       2938.0
6    20190821  2089.0   927.0  1432.15   891.26      2323.41       3016.0
7    20190820  1978.0  1007.0  -367.52  -471.31      -838.83       2985.0
8    20190819  2075.0  1395.0  3861.04  4621.52      8482.56       3470.0
9    20190816  3811.0  1726.0  -102.61   253.84       151.23       5537.0
読んでいるデータはdf.to_です.csvで書いたデータはフォーマットが同じですが、だめです.最後にappedのデータを先にto_してみます.csvまたread_csv、そしてdrop_duplicates、この時重いことに行くことができることを発見して、どうして知らないで、本質はきっとpansdasがここが重複していることがないと思って、しかしどうしてですか?
 
2020年2月10日に問題点を発見しました.自問自答してください.
元はデータタイプが違っていますが、デフォルトのpd.read_csvはいくつかのデータをint、floatなどのタイプに変換しますが、新しいデータは全部strですので、重たくはいけません.df 1=df 1.astype(type(“1”)は全部strに変換して再び重ければいいです.dataFrameデータのタイプを変更する参考にしてください.https://blog.csdn.net/python_ai_ロード/アート/detail/81158376
もちろん、csvを読み込む時に、データの種類を指定して、パンダス公式説明文書を参照してもいいです.https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.highlight=read_csv菵パンdas.read_csv
データの列が多すぎて、指定が不便なら、すべてstrに変えましょう.