文字列、ファイルの使用方法


目次


文字列として保存


  • エンコーディング

  • 文字列の処理

  • 正規表現
  • ファイルとディレクトリ


  • ファイル

  • 目次

  • モジュールとパッケージ
  • 複数ファイル形式


    1.CSV
    2.XML
    3.JSON

    文字列の保存


  • きほんたんい
    -バイト(byte):コンピュータのデフォルトのストレージ単位
    -Unicode:最上位文字

  • コーディングとデコード
    i)符号化
    :文字列->バイト(人言語->コンピュータ言語)
    ex)
    ord():文字->uniデジタル変換
    ii)復号化
    :バイト-->文字列(コンピュータ->人間)
    ex)
    chr():uninumber->文字変換
  • 文字列機能
  • ":一重引用符"出力
    出力":二重引用符"
    t:タブ
    n:改行
    :スラッシュ出力
    r:運転再開
    ii)オリジナル文字列(オリジナル文字列)
    -->エスケープ文字を無効にします.
    -->使用法:開始文字列の引用符にrを付ける
    startswith(「文字列」):この文字列の先頭にある値を検索します.
    EmployeeID = ['OB94382', 'OW34723', 'OB32308', 'OB83461', 
                                      'OB74830', 'OW37402', 'OW11235', 'OB82345'] 
    Production_Employee = [P for P in EmployeeID if P.startswith('OB')]   # 'OB'로 시작하는 직원 ID를 다 찾아봅니다
    Production_Employee
    endswith(「文字列」):文字列で終わる値を検索
    import os
    image_dir_path = os.getenv("HOME") + "/data/pictures"   
    #- 각자의 사진이 보관된 디렉토리를 골라 주세요.
    photo = os.listdir(image_dir_path )
    png = [png for png in photo if png.endswith('.png')]
    print(png)
    trimming():スペースタグのスペース文字を作成する関数です.
  • space:スペース
  • tab(t):4つまたは2つのスペース
  • 改行:
  • 改行シード(開いている):
  • 改行
  • リターン(r):カーソルを一番前に移動
    strip():スペース文字消去関数
  • #txt = "      공백 문자를 제거해 보아요.      "
    txt = "      Strip white spaces.      "
    print('[{}]'.format(txt))
    print('--------------------------')
    
    #- 양쪽 공백 제거 : strip()
    print('[{}]'.format(txt.strip()))
    print('--------------------------')
    
    #- 왼쪽 공백 제거 : lstrip()
    print('[{}]'.format(txt.lstrip()))
    print('--------------------------')
    
    #- 오른쪽 공백 제거 : rstrip()
    print('[{}]'.format(txt.rstrip()))
    upper():すべての文字が大文字
    lower():すべての文字小文字
    大文字():頭文字を大文字に変換

    IsX


  • 文字列の構成に基づいてbooleanの値を返す


  • isupper():文字列がすべて大文字の場合はTrue O、False
    islower():文字列がすべて小文字の場合はTrueまたはFalse
    istitle():文字列の最初の文字が大文字の場合はTrueまたはFalse
    isalpha():文字列がすべてアルファベット文字の場合はTrueまたはFalse
    isalnum():文字列がすべてアルファベットと数字の場合、TrueまたはFalse
    isdecimal():文字列がすべて数値の場合、TrueまたはFalse
    print("aiffel".isupper())
    print("aiffel".islower())
    print("PYTHON".istitle())
    print("python101".isalpha())
    print("python101".isalnum())
    print("101".isdecimal())
    join():重複可能なオブジェクトを受信する方法で各要素を1つの文字列に集約し、文字列を返します.
    split():区切り記号に基づいて文字列を区切り、デフォルト値はカンマ(,)、リストを返します.
    replace():文字列中の文字列s 1->s 2をreplace(s 1,s 2)として表示する
    iv)不変(不変)の文字列

  • 可変オブジェクト
    -オブジェクトの作成後に値を変更
    -変数は値を変更したオブジェクトです.
  • 変更された値=元の値
    ex)list, set, dict

  • 不変オブジェクト
    -オブジェクトを作成した後、オブジェクトの値Xを変更します.
  • 変数は、その値を持つ他のオブジェクトを指します.
  • 修正された値!=元の値
    EX) int, float, complex, bool, string, tuple,
    frozen set

  • オブジェクトの比較
    -id(オブジェクト):オブジェクトの一意の定数が返されます.
    -is
  • 変数is変数
  • 変数
  • はオブジェクト
  • である.
    オブジェクト
  • はオブジェクト
  • である.
    4.正規表現(crtl+F、検索機能をサポート)

  • 定義:検索する文字列パターンの定義または既存の文字列の一致を比較するための特定のルールを持つ文字列セット

  • import re

  • Complile()
    1)検索する文字列のパターンを定義する
    2)re.compile()-->オブジェクトを繰り返し使用できます.

  • メソッド
    1)定義されたパターンにマッチするものを探し,多様な処理を行う.
    -search():一致するパターンを検索
    -match():パターンは最初から検索ターゲットに一致します.
    -findall():一致するすべてのパターンを検索
    -split():アレイを分割する
    -sub():一致するアレイで置換
    -group():実際の結果に対応する文字列を返します.

  • 実装手順
    1)import reで通常モジュールをインポートします.
  • 2)re.compile()関数を使用してRegexオブジェクトを作成します.
    3)検索する文字列をRegexオブジェクトに転送するsearch(),findall()メソッド
  • モード:特殊文字、メタ文字
    []:メール
  • :範囲
    .:1文字
    ? : 0回または1回の繰り返し
  • :0回以上
  • を繰り返す.
  • :1回以上繰り返す
    {m, n} : m ~ n
    d:数字
    D:数値以外
    w:アルファベット文字
    W:アルファベット以外
    s:スペース文字
    S:空白以外の文字
    b:単語の境界
    B:空白語境界
    こんなにたくさんのものが一覧でわかるのは
  • です

    ファイルとディレクトリ


  • ファイル
    イ)方法
    f.read():ファイルを読み込みます.
    f.readline():ファイルを行単位で読み込みます.
    f.readlines():ファイル内のすべてのローを読み取り、その値をリストに返します.
    f.write(str):ファイルに書き込みます.パラメータとして文字列タイプを受け入れます.
    f.writeliness(str):ファイルにパラメータを1行書きます.
    f.close():ファイルを閉じます.
    f.seek(offset):新しいファイルの場所を検索

  • ディレクトリ(ファイル格納場所)
  • -標準:sys、os、glob
    -コンセプト
  • モジュールおよびパッケージ
  • モジュール(module):Pythonコードを含むファイル.py
    パッケージ:init.pyを含むフォルダは通常ライブラリです
    -PIP(Package Installer for Python):パッケージマネージャ
    -Python Packaging Authority:Pythonパッケージの管理とメンテナンスのグループ
    -PYPI(Python Package Index):Pythonパッケージのリポジトリ
    ---関数
    sys.path:現在のフォルダとPythonモジュールの格納場所をリスト形式で返す
    sys.path.append():append関数を使用して自分で作成したモジュールのパスを追加することで、追加ディレクトリのPythonモジュールをロードして使用できます.
    os.chdir():ディレクトリの場所を変更する
    os.getcwd():現在の自分のディレクトリの場所を返します.
    os.mkdir():ディレクトリの作成
    os.rmdir():ディレクトリを削除します(ディレクトリが空の場合)
    glob.glob():パス内のディレクトリまたはファイルのリスト
    os.path.join():パスをマージして新しいパスを作成する
    os.Listdir():ディレクトリ内のファイルとサブディレクトリのリスト
    os.path.exists():ファイルまたはディレクトリのパスが存在するかどうかを確認します.
    os.path.isfile():ファイルパスが存在するかどうかを確認します
    os.path.isdir():ディレクトリパスが存在するかどうかを確認します.
    os.path.getsize()getsize():ファイルサイズのチェック

    複数ファイル形式

  • CSV
    csvファイルは、プライマリピーターの実行パスに格納される可能性があります.
  • ファイルを検索して開くと、各データはカンマ(,)で表示されます.
    分かれていることが確認できます
    1-1)CSVファイルとPandas
    PandasのDataFrameはto csvメソッドをサポートします.
    この方法で簡単にcsvファイルとして保存できます.
    データの準備ができたら、pandasを使用してcsvファイルとして保存します.
    1-2)CSVファイルとDataFrame
    csv file ---------------> DataFrame
    (pd.read_csv())
    <---------------
    (df.to_csv())
  • XML
  • <>言語
    API情報の要求および保存
    XMLはマルチターゲット寸法言語です.
    寸法言語とは、タグ(tag)からなる言語を指す.
    親(親)タグ-子(子)タグを持つ階層.
    XMLは要素(element)からなる.
    要素のデフォルト構造は、<開いたラベル>コンテンツです.
    属性(attribute)値を持つこともできます.
    2-1)XMLファイルの作成
    -ElementTree
    Pythonの標準ライブラリであるElementTreeでは、XMLに関連する次の機能が提供されています.
    Element()Element()Element()Element()Element()Element()Element()Element()Element()Element()Element()Element()Element()Element()
    SubElement()SubLabelの作成
    tag:タグ名
    text:テキストコンテンツの生成
    attrib:属性の作成
    dump()
    生成されたXML要素構造をシステム(sys.stdout)に使用します.
    write():XMLファイルとして保存
    リストと同様の方法を提供
    append, insert, remove, pop
    2−2)XMLパケット.
    0)抽出するデータが文字列に含まれている場合、抽出
    1)ElementTree(例は以下の通り)
    2) BeautifulSoup
    https://www.crummy.com/software/BeautifulSoup/bs4/doc/#parsing-xml
    3)JSON
    JSONはJavaScript Object Notationの略です.
    Web言語JavaScriptでデータオブジェクトを表します.
    Webブラウザと他のアプリケーションとの間のHTTPリクエスト.
    データを送信するときによく使用される標準ファイルフォーマットの1つです.
    XMLとともにWeb APIやconfigデータを転送する際によく使われる
    CSVファイルでデータをより柔軟に表現します.
    XMLファイルよりもファイルの読み取りと書き込みが容易です.
    JavaScriptの可用性に基づいています.
    Web上のJavaScriptまたはJavaScriptベースのFramework
    これは大きなメリットかもしれません.
    3-1)jsonグループ
    i)ファイルの保存
    ii)ファイルの読み取り