PyData.Tokyo Meetup #20 医療・保険におけるデータ分析 勉強会メモ


概要

PyData.Tokyo Meetup #20 医療・保険におけるデータ分析

企業・スタートアップ・学会等の各方面で活躍している Pythonista の皆さんが、データ分析・機械学習関連のトピックについて深く議論、交流するためのコミュニティです。「Python+Dataを通じて、世界の PyData エクスパートと繋がれるコミュニティを作る」ことを目標としています。

第19回勉強会としてPyData.Tokyo Meetup #20 を開催します。今回のテーマは「保険領域×機械学習」です。

発表内容

生命保険数理と医療データサイエンス

  • 青木智広さん

    • RGAリインシュアランスカンパニーという再保険会社
    • データアクチュアリーとして働く
  • 再保険会社の保険商品開発について

    • 発生率
      • 1年以内に保険事故が発生する確率
        • i.e. 死亡保険の場合、死亡
      • 性別、年齢、体況・既往歴、生活集団などの条件によって、保険事故の発生率が変わる
    • 保険会社
      • 保険金と発生率から期待支出、保険料から確定収入が分かる
      • そのため、発生率と保険料・給付金から、保険会社の期待粗利が分かる
      • 実績発生率が予測発生率よりも低いことで、粗利がプラスになる
    • 再保険会社
      • 保険会社は、想定よりも多額の保険金支払いのリスクがある
      • リスク分散するため、保険会社は再保険会社に契約者からの保険料を支払う代わりに、保険金を支払いを再保険会社から受け取って契約者に行う
      • 保険会社の発生率見積もりより再保険会社の見積もりが小さければ、その差額が期待収益になる
        • 予定発生率と実績発生率のギャップ
      • 再保険会社は、保険会社よりも精緻な分析が行って、発生率を正確に見積もる
      • 元請の生保会社は規制業法の影響により、発生率を高めに設定して政府の認可を受ける必要があるが、再保険会社は損保なのせ規制を受けない
  • 匿名化項医療データ

    • 医療機関ベース

      • 病院などの患者データ
        • データ取得を集めやすい大手病院患者のバイアス
        • 不健康
        • 医療水準が高い
        • 入院期間が短い
      • データの打ち切り事由
        • 転退院/死亡/データ提供者との契約終了
        • 一部傷病において、長期観察不可
        • 転院後の追跡不能
    • 保険者ベース

      • 健康保険組合の勤労者と扶養家族のデータ
        • データ取得を集めやすい大企業労働者のバイアス
        • 健康
        • 所得水準が高く、検診受診頻度が高い
        • 診断の発生率が高く、入院の発生率が低く、入院期間が短い
      • データの打ち切り事由
        • 転職・退職/死亡/データ提供者との契約終了
        • 死亡前は働けないため、比較的健康なものが観察される
        • 結果として、観測死亡率が低くなる
  • 観測発生率の計算

    • 曝露(Exposure)
      • 疾病発生以前に存在する測定可能性を考慮しないすべての状態
      • 性別、年齢、遺伝的要因以外にも「毎日30分以上散歩する」なども
    • 危険因子
      • 曝露のうち、疾病発生率に影響を与えるもの
      • 喫煙は肺がんの危険因子など
    • 観測死亡率
      • Claim / Exposure (保険金給付 / 人年)
      • 男女別・年齢など条件別に発生率を計算する
      • 他にも、喫煙習慣や血液などのパラメータが増えることで、組み合わせ爆発を起こしうる
    • lifelines
      • pythonモジュールで生存時間分析
      • Kaplan-Meier曲線で時間経過に伴う生存率を可視化
      • Kaplan-Meier法は単変量解析
      • cox回帰分析は多変量解析