[TIL]Day 119
1064 ワード
クエリトークン化{{くえり:トークンか}}
1.Mecab形態解析不要な形態の除去
2.新語のために最後の形だけを比較する
1.検索語タグを使用するときに使用するタグ
2.タグが重なる単語を除外し、1人5個ずつ抽出する
3.ベクトル類似度が0.7以上
1.Mecab形態解析不要な形態の除去
2.新語のために最後の形だけを比較する
stop_tags = ['JKS','JKC','JKG','JKO','JKB','JKV','JKQ','JX','JC','EP','EF','EC','ETN','ETM','XSN','XSV','XSA','SF','SE','SSO','SSC','SC','SY']
stop_words = ['한','곳','집','식당','장소','음식점']
def get_search_token(sent):
spl_tokens = sent.split(' ')
res = []
for st in spl_tokens:
pos_st = tagger.pos(st)
mor_st = tagger.morphs(st)
while pos_st and ( pos_st[-1][1] in stop_tags or pos_st[-1][0] in stop_words ):
pos_st = pos_st[:-1]
mor_st = mor_st[:-1]
tmp = ''.join(mor_st)
if len(tmp) > 1:
res.append(tmp)
return res
トークンベクトル類似度単語を解く関数を実現する1.検索語タグを使用するときに使用するタグ
2.タグが重なる単語を除外し、1人5個ずつ抽出する
3.ベクトル類似度が0.7以上
Reference
この問題について([TIL]Day 119), 我々は、より多くの情報をここで見つけました https://velog.io/@du-du-zi/TILDay-119テキストは自由に共有またはコピーできます。ただし、このドキュメントのURLは参考URLとして残しておいてください。
Collection and Share based on the CC Protocol