knownetの曖昧検索
2023/10/4 23:50:00
当初ベクトル検索を用いようとしていたが、検索速度や精度に問題が有るため取りやめた。
現在は検索語を分かち書きして、検索語を構成する句を含む投稿を取得、さらにその投稿と紐づく投稿を取得し、投稿のEmbeddingと検索語のEmbeddingのコサイン類似度で並び替えしている。
Embeddingの取得にはAmazon Bedrockを使っている。
当初ベクトル検索を用いようとしていたが、検索速度や精度に問題が有るため取りやめた。
現在は検索語を分かち書きして、検索語を構成する句を含む投稿を取得、さらにその投稿と紐づく投稿を取得し、投稿のEmbeddingと検索語のEmbeddingのコサイン類似度で並び替えしている。
Embeddingの取得にはAmazon Bedrockを使っている。
検索文をトークン化する
トークンと投稿表題の全文一致で検索する
[後回し]トークンと投稿インデックスで検索する
投稿の関連付けを二回まで辿って投稿を取得
取得した投稿をEmbeddingの距離で並び替える
遺伝的ホニャララは死にました。
Amazon Bedrockが正式リリースされてしまったので、それを使っております。