[TIL]Day 119

1064 ワード

クエリトークン化{{くえり:トークンか}}
1.Mecab形態解析不要な形態の除去
2.新語のために最後の形だけを比較する
stop_tags = ['JKS','JKC','JKG','JKO','JKB','JKV','JKQ','JX','JC','EP','EF','EC','ETN','ETM','XSN','XSV','XSA','SF','SE','SSO','SSC','SC','SY']
stop_words = ['한','곳','집','식당','장소','음식점']
def get_search_token(sent):
    spl_tokens = sent.split(' ')
    res = []
    for st in spl_tokens:
        pos_st = tagger.pos(st)
        mor_st = tagger.morphs(st)
        while pos_st and ( pos_st[-1][1] in stop_tags or pos_st[-1][0] in stop_words ):
            pos_st = pos_st[:-1]
            mor_st = mor_st[:-1]
        tmp = ''.join(mor_st)
        if len(tmp) > 1:
            res.append(tmp)
    return res
トークンベクトル類似度単語を解く関数を実現する
1.検索語タグを使用するときに使用するタグ
2.タグが重なる単語を除外し、1人5個ずつ抽出する
3.ベクトル類似度が0.7以上