pythonにおけるexcelデータパケット処理

1856 ワード

1.シーンの説明
テキスト類似性熱統計(python版)の需要の中で故障タイプによってグループ統計を行う必要があるため、excelをグループ化してから分詞統計を行う必要があります.簡単に記録して、必要な友达は直接持って行って、遠慮しないでください.
2.ソリューション
pandasパケットを用いてまずグループ化し,具体的な詳細を取得して分詞処理を行い(分詞処理はここでは展開しない),pythonのexcelパケットのみを紹介し,具体的な詳細を処理する.
2.1完全なコード
import pandas as pd

if __name__ == '__main__':
    inputfile = '    -source.xlsx'
    data = pd.read_excel(inputfile)
    grp1 = data.groupby('    ')
    rcount = 1
    for name, group in grp1:
        print(group)
        name = name.replace('
', '').replace('/', '') for i in range(len(group)): row = group.iloc[i].values # list cell = row[1] if cell is None: continue if not isinstance(cell, str): continue item = cell.strip('
\r').split('\t') string = item[0] if string is None or len(string) == 0: continue else: print(' group , , :' +name + ' :' + string)

2.2実行効果
             
0      1        
1      1        
2      1        
    group    ,          ,  :    1   :      
    group    ,          ,  :    1   :      
    group    ,          ,  :    1   :    
                 
3      2         
4      2         
    group    ,          ,  :    2   :       
    group    ,          ,  :    2   :     
              
5      3      
    group    ,          ,  :    3   :    

2.3ソフトウェアの王さん-source.xlsx
分類対象列
の原因となる
ソフト王さん1
ホストの電源が入らない
ソフト王さん1
電源が入らない場合があります
ソフト王さん1
電源投入
ソフト王さん2
セルフテストエラーまたはハングアップ
ソフト王さん2
機械の騒音が大きい
ソフト王さん3
騒音の問題
I’m「ソフト王さん」、まだ大丈夫だと思ったら、フォローしてください.討論区、同名の公衆番号の伝言交流を歓迎します!