Labelmeツール解析jsonファイル

4088 ワード

自分の処理データの需要とlabelmeの直接使用処理にはまだ差があるため、ここで新しいツールを開発し、パートナーに感謝し、labelmeツールがjsonオープンソースを解析するため、データ組織フォーマットを標準jsonと同じ方法を採用した.
解析コードは次のとおりです.
変更ファイル:D:UsersPangzhennanAnaconda 3envslabelmeLibsite-packageslabelmeclijson_to_dataset.py
ここでは、一括操作ファイルのコードとパスします.
# -*- coding: utf-8 -*-
import argparse
import json
import os
import os.path as osp
import warnings

import PIL.Image
import yaml

from labelme import utils
import base64


def main():
    warnings.warn("This script is aimed to demonstrate how to convert the
" "JSON file to a single image dataset, and not to handle
" "multiple JSON files to generate a real-use dataset.") parser = argparse.ArgumentParser() parser.add_argument('json_file') parser.add_argument('-o', '--out', default=None) args = parser.parse_args() json_file = args.json_file # ''' if args.out is None: out_dir = osp.basename(json_file).replace('.', '_') out_dir = osp.join(osp.dirname(json_file), out_dir) else: out_dir = args.out if not osp.exists(out_dir): os.mkdir(out_dir) ''' list = os.listdir(json_file) for i in range(0, len(list)): path = os.path.join(json_file, list[i]) ''' print('path===================') print(path) kkk = open(path) print(kkk) print(type(kkk)) ''' if os.path.isfile(path): #with open(path,'r') as load_f: #pang_add method1; #data = json.load(load_f) #data = json.load(open(path)) #pang_add method2; data = json.load(open(path, 'r')) #pang_add method2; ''' print('data===================') print(data) print(type(data)) ''' img = utils.img_b64_to_array(data['imageData']) lbl, lbl_names = utils.labelme_shapes_to_label(img.shape, data['shapes']) captions = ['%d: %s' % (l, name) for l, name in enumerate(lbl_names)] lbl_viz = utils.draw_label(lbl, img, captions) out_dir = osp.basename(list[i]).replace('.', '_') out_dir = osp.join(osp.dirname(list[i]), out_dir) if not osp.exists(out_dir): os.mkdir(out_dir) PIL.Image.fromarray(img).save(osp.join(out_dir, 'img.png')) PIL.Image.fromarray(lbl).save(osp.join(out_dir, 'label.png')) PIL.Image.fromarray(lbl_viz).save(osp.join(out_dir, 'label_viz.png')) with open(osp.join(out_dir, 'label_names.txt'), 'w') as f: for lbl_name in lbl_names: f.write(lbl_name + '
') warnings.warn('info.yaml is being replaced by label_names.txt') info = dict(label_names=lbl_names) with open(osp.join(out_dir, 'info.yaml'), 'w') as f: yaml.safe_dump(info, f, default_flow_style=False) print('Saved to: %s' % out_dir) if __name__ == '__main__': main()

問題:
json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0)

この問題を解決するために、一度は自分のjsonの中の辞書と内容のフォーマットに問題があったと考えられていたが、調べたところ、自分のツールが保存しているjsonフォーマットはutf-8フォーマットで符号化されており、通常はansiまたはcp 936(gbk)フォーマットで符号化されているはずであることが分かった.
ソリューション:1.jsonに対するツールの符号化フォーマットを変更します.2.utf-8符号化フォーマットのjsonファイルをansiまたはcp 936符号化フォーマットのファイルに変換する.
utf-8フォーマットとcp 936フォーマットの関係について:
UTF-8(8-bit Unicode Transformation Format)は、Unicodeに対する可変長文字符号化であり、万国符号とも呼ばれる.
GBKのフルネームは「漢字内コード拡張仕様」(Chinese Internal Code Specification)で、cp 936はGBKに等しい.
ANSIは、コンピュータがより多くの言語をサポートするために、通常0 x 00~0 x 7 fの範囲の1バイトを用いて1つの英語文字を表す文字コードである.この範囲を超えて0 x 80~0 xFFFFを用いて符号化される、すなわち拡張されたASCII符号化である.