有価証券報告書のR&D部分をみつつ特許データ探索（ダッシュボード作成）

12982 ワード

CoARiJ Python BigQuery EDINET Python テキストリンク

0.はじめに

動機

特許の情報を分析する際には、特許だけじゃなくて他の情報もみましょうねと長く言われてきてますが、自分としては特許検索とは別にネット検索でしこしこみたり、エクセルにメモを取ったりしながら、特許の情報と他の情報を行ったり来たりすることがあり結構面倒だった。
そこで特許検索を中心にしつつ、いろんな情報を参照できるダッシュボードがあるといいなあと思い、作ることに。
まずは、かなり綺麗に情報が入っている有価証券報告書と、その中の「研究開発について」の部分の文章を一覧にしようと検討。。
「研究開発について」の部分の文章はこんな感じで、その企業がどんな研究開発を進めようとしているか書いてあり参考になる。

６【研究開発活動】当社グループは、電子デバイスシステム、ファインテックシステム、科学・医用システム、産業・ＩＴシステムの各セグメントで、製品競争力の強化と新製品の開発、新規事業製品の開発に取り組んでおります。これらの活動に係る当連結会計年度の研究開発費は20,163百万円であり、セグメントごとの研究開発成果は、以下の通りであります。電子デバイスシステム半導体市場では、PC需要が減少する一方で、サーバー及びスマートフォンが成長したことから、モバイル機器向けのアプリケーションプロセッサ及びメモリー(NAND、DRAM)が堅調でした。先端デバイスにおいては、マルチパターニング(Multi-Patterning)技術による14～16nm世代製品の量産比率が高まるとともに、10nm世代の試作ライン構築及び7nm世代の開発がスタートしました。また、各メモリーメーカーは3D-NANDの量産に注力しています。このように、微細化とともに、ロジック・メモリーとも三次元構造化が進み、最先端のデバイス製造では、工程数増加に対応する高生産性、複雑構造化へ対応し・・・（以下略）

先行するサービスなどで利用できるものがないか？

どっかに有価証券報告書のテキストデータをAPIなどで提供してくれるサービスないかな、と思い探したところ、バフェットコードと、CoARiJがあったがどちらもちょっとだけ要求に満たず。
しょうがないので、R&D部分のテキスト抽出とBiGQueryに格納するのは自分でやることに。

1.結果

作れた
DataStudioは便利！

2.構成

2-1　構成

2-2 利用させたもらったコードやデータなど

*CoARiJ
*EDINETから有価証券報告書データを取得してくるこの記事
*おなじみGoogle Patents Public Datasets

2-3 SQLなど説明

Google Patents から情報取得SQLの部分：Google patentsへのurlと、Googleが抽出してくれた、特許文中の特徴的なワードは、通常の特許のテーブルには入ってないため、２つのテーブルをJOINするとこが少し苦労した。

特許版のSQL


WITH gpat AS (
SELECT 
      publication_number as pubnum,
      top_terms,
      url
FROM patents-public-data.google_patents_research.publications
),

pat AS (
SELECT publication_number as pubnum,
       filing_date as appday,
       STRING_AGG(DISTINCT title.text) as title,
       #STRING_AGG(DISTINCT abstract.text) as abst,
       STRING_AGG(DISTINCT appls.name,'|') as applicants
FROM `patents-public-data.patents.publications`,UNNEST(title_localized) as title,UNNEST(abstract_localized) as abstract,UNNEST(assignee_harmonized) as appls
WHERE SUBSTR(publication_number,0,2) = 'JP' AND filing_date > 20100101
GROUP BY pubnum,filing_date
)

SELECT gpat.pubnum,
       gpat.url,
       gpat.top_terms,
       pat.title,
       #pat.abst,
       pat.applicants,
       pat.appday
FROM gpat
INNER JOIN pat
ON gpat.pubnum = pat.pubnum

最終的にDataStudioに出力したテーブル

Field name	Type	Mode	説明
pubnum	STRING	NULLABLE	公報番号
url	STRING	NULLABLE	googlepatentへのリンクURL
top_terms	STRING	REPEATED	google抽出の特徴語
title	STRING	NULLABLE	タイトル
applicants	STRING	NULLABLE	出願人
appday	INTEGER	NULLABLE	出願日

* 有価証券報告書側

pythonでEDINETからxbrl形式のデータを取ってきて、coarijでR&D部分（「研究開発について」部分）を抜き出す。
同時にsudachiを使って分かち書きをしておいて、BigQueryに投入し、前回作成したSQLでtfidfを計算して格納する。

有価証券報告書側SQL

↓tfidf計算のためのテーブル生成


#分かち書きされた文章からtfidf計算して格納するSQL
#～SQL発行しすぎて履歴からどこかへ消えちゃった＼(^o^)／ｵﾜﾀ

tfidf>0.01で抽出するSQL↓


SELECT id,
      year,
      comname,
      secCode,
      wakatiwd,
      STRING_AGG(tfidf.word) as tfidf_word,
      COUNT(tfidf.word) as tfidf_count,
      LENGTH(wakatiwd) as textlen 
FROM ~~(秘密).SecuritiesReport_tfidf,UNNEST(tfidfs) as tfidf
WHERE tfidf.tf_idf > 0.01
GROUP BY id,year,comname,secCode,wakatiwd

最終的にDataStudioに出力したテーブル

Field name	Type	Mode	説明
id	STRING	NULLABLE	EDINETで付与される文書ID
year	INTEGER	NULLABLE	報告書の提出年
comname	STRING	NULLABLE	企業名
secCode	INTEGER	NULLABLE	証券コード
wakatiwd	STRING	NULLABLE	R&D部分をsudachiで分かち書きした結果
tfidf_word	STRING	NULLABLE	tfidfで
tfidf_count	INTEGER	NULLABLE	tfidfの
textlen	INTEGER	NULLABLE

3.完成版

こんな感じに。
左側の有価証券報告書のR&D部分の文章をみつつ、何か気になる技術用語が出てきたら、英語だけど検索ワードを設定して、結果を右側の特許リストなどに反映させる。

4.バージョンアップ

次に追加していきたい機能などのリスト

左側のR&D文章から抽出したワードの中から、技術用語っぽい言葉を抜き出して、右側の検索欄に入れる。
ワードのふくらまし（特許版word2vecや技術用語辞書などで）
pipeline(今回は2020年6月までの有価証券報告書データだったけど、バッチ的にやるよりは毎月くらいの頻度で自動的にBigQueryに入れてたい)
実は外国のはもっと簡単にとれるんじゃないか（BigQueryのPublicDataSetにそれっぽいものが）
他のデータソース（法規制とか社会トレンドなど）も一緒に見られるといいなど検討中。。
研究開発費は入れないと
何か画面デザインが気に入らない。BIツールのレイアウトとか結構修行が必要そう。
こういうのもあったので、他のテキスト部分も取得しておけば良かった！
母集団に応じてリアルタイムでtfidfを変更するもの。今回最初に作ったら激重でたびたびフリーズしたので、泣く泣く全体で計算した。tfidfはそもそも当初の状態が理想なので、何とかならないか検討中。

5修正

有価証券報告書の文中を部分一致などでテキスト検索可能に。
特許の要約文を部分一致などでテキスト検索可能に。

Author And Source

この問題について(有価証券報告書のR&D部分をみつつ特許データ探索（ダッシュボード作成）), 我々は、より多くの情報をここで見つけました https://qiita.com/niship2/items/8a29645df214e05b4e5f

著者帰属：元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。

Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .