t_wの輪郭

knownetの曖昧検索

2023/10/4 23:50:00

当初ベクトル検索を用いようとしていたが、検索速度や精度に問題が有るため取りやめた。

現在は検索語を分かち書きして、検索語を構成する句を含む投稿を取得、さらにその投稿と紐づく投稿を取得し、投稿のEmbeddingと検索語のEmbeddingのコサイン類似度で並び替えしている。

Embeddingの取得にはAmazon Bedrockを使っている。

あれ

2023/10/4 23:48:00

遺伝的ホニャララは死にました。
Amazon Bedrockが正式リリースされてしまったので、それを使っております。

あれ

2023/10/4 23:38:00

この検索結果は相当賢いんじゃないですか奥さん!!

検索文をトークン化する
トークンと投稿表題の全文一致で検索する
[後回し]トークンと投稿インデックスで検索する
投稿の関連付けを二回まで辿って投稿を取得
取得した投稿をEmbeddingの距離で並び替える

あれ

2023/10/4 23:54:00

このknownet、クラウド利用料がいくらかというとこうやぞこう!!!

類似技術のAzure Cognitive Searchは一番安いので$0.11/時間や