NEologd Casual Talks | #neologd
NEologd Casual Talks | #neologd
遅いですが、下記のイベントに参加したので、備忘録として、記録したことを公開させて頂きます。
NEologd が2016年末までにやること
NEologd の今後の予定と、完成してたら新しい機能や、何か実験が終わっていたらその結果、集まっていたら使用事例をご紹介します
まとめ
下記の問題
1:Unidicで直す
2:キーワード抽出
3:GEOapi
カラム拡張で対応
オプション
--expand-colum(辞書の拡張)
git リポジトリにupしたカラム拡張を共有できる。
定量的な評価
文書分類タスクで確認
IPA辞書、UniDicのベスト結果を上回る
文書分類では副作用がない
予定
動詞エントリの拡張
略語エントリの追加
新語の追加(コミット可能)
知識を紡ぐための言語処理と、そのための言語資源
言語データの意味理解のためには、形態素解析や「辞書に対するマッチング」を超えた言語処理が必要であることは論をまちません。今回は、一歩進んだ固有表現解析のための、「エンティティリンキング」というタスクを紹介します。また、我々が構築している固有表現に関する構造化された言語資源をいくつか紹介します。
まとめ
乾研究室
知識
言語理解には「知識」を持たせる
Twitter,Wikipedia
Wikipedia,FreeBase
• リソースの配布元 • 日本語 Wikification コーパス –
http://www.cl.ecei.tohoku.ac.jp/jawikify/
• 場所参照表現タグ付きコーパス
– http://www.cl.ecei.tohoku.ac.jp/~matsuda/LRE_corpus/
• 日本語 Wikipedia Entity ベクトル
– http://www.cl.ecei.tohoku.ac.jp/~m-suzuki/jawiki_vector/
• 英語
- https://github.com/idio/wiki2vec
• 拡張固有表現 + Wikipedia データ
– http://www.languagecraft.com/enew/
ファッションを扱うサービスのために、Elasticsearchのユーザー辞書とシノニム辞書を作った話
自然言語処理とは無縁のアプリケーションエンジニアが、ファッションフリマアプリの商品検索改善のために、Elasticsearchのユーザー辞書とシノニム辞書を作った話をします。あまり世の中にユーザー辞書・シノニム辞書を作った知見が公開されない中で実サービスの要件に合わせてどう辞書を作っていったかの話をできればと思います。
まとめ
ユーザー
表記揺れ、略称、絵文字、タイトル、商品説明、状態、形状、セールスポイント、表記間違い
マスタはそのまま
最初
Recallが高い状態(uniGram)
F値が高い状態が理想
uniGramよりヒット率が低くならないようにするためにNeologdに
今後
inquisitorのプラグインは確認
上位概念+辞書の単語を登録
検索時の揺れはキーワードサジェストで対応
作業コストが低い方法+資源としての正しさ
検索ログを見ている(上から何000件)
使用していて、気付いたら意見もらう
サービス内の活性化(1ページ目で検索結果が出ない場合はないと思っている)
検索からの購買に繋がった
NEologdをどう使うと便利なのか ークエリ拡張 or 検索ソート順における活用
旧来の言語資源だけでなく、Webからクロールした大量文書データ等を基に抽出される固有表現コーパスとしてNeologdが商用で利用されており、継続的にWebから取得される事が日々の変化を補足する点で重要な知見となっている。さらに、検索サービスを広告商品として使用する企業にとって、ユーザーが日々検索クエリを生み出していることもあり、固有表現を保守運用する事は難しい。他方、検索クエリと広告のマッチングにおいてクエリ拡張が重要となることは周知の事実である。そこで、クエリ拡張を行う際、NEologdをどう使うと便利なのかを考察する。
まとめ
クエリSuggestにおける前処理エラー補正
Suggestにおける複合語を補正
クエリ拡張
1:サジェストしたクエリ拡張
2:クエリ拡張モデルを使用
3:Neologdで補正(複合語の場合はくっつける)
固有表現だと一致するものが少ない→クエリ拡張とNbestそのあとで補間はNeologd
固有表現の方が良い情報を提示しやすい
前処理用Pythonモジュールneologdnの紹介
テキストの前処理の大切さと、その前処理を行うneologdnについて軽くお話しします
テキストの前処理
文字コードの違い
テキストを一定のルールに基づいて整える。
半角カナを全角カナにする。
neologdn(Neologdの前処理用Pythonモジュール)
pip install neologdn
前処理用のライブラリ
Author And Source
この問題について(NEologd Casual Talks | #neologd), 我々は、より多くの情報をここで見つけました https://qiita.com/GushiSnow/items/796ad5358294a8c44ab5著者帰属:元の著者の情報は、元のURLに含まれています。著作権は原作者に属する。
Content is automatically searched and collected through network algorithms . If there is a violation . Please contact us . We will adjust (correct author information ,or delete content ) as soon as possible .