t_wの輪郭

Feedlyでフォローするボタン
レコメンドアイデア二つembedding検索精度言語モデル検索

応向分離

2023/11/20 23:15:00

おそらく一般的には応類向類は同じ言語モデルで生成して検索に用いるのだが、応類向類で異なる言語モデルを用いることで以下の利点が得られる。

  • 利用者の動向から向類を学習させ、漸次的に検索精度を向上させる
  • 利用者の動向から向類を学習させ、漸次的に個々の利用者に対して検索結果を変化させる
  • 上記をしつつ、更新費用が高くなる応類を不変あるいは低頻度での更新と出来る

レコメンドにおいても同様のことができ、同じような利点が得られる。


Two-Towerモデルと同一。

Two-Towerモデルあれ2023年11月9日日記応類向類

Two-Towerモデル

2023/11/20 23:15:00

レコメンドシステムにおいて、ユーザーのEmbeddingを計算するモデル(Query Tower)と、推薦対象のEmbeddingを検索するモデル(Candidate TowerあるいはDocument Tower)の2つを使う手法。

検索システムにおいてはQuery towerで検索文のEmbeddingを生成する。

dual encoderとも呼ばれている。

2023年11月9日日記

2023/11/9 23:17:00

出社・退社

 8:30に出社した。7.5時間労働なので、17:00に退社できる。
 17:30ごろに退社した。30分の残業。


昼ごはんに持ってきた弁当に入れた角煮カビが生えていた。

 鍋から冷たいままお箸で入れたのが良くなかったのだろう。角煮に火を入れた後にインテグレーションして密封すればまだマシだったはずだ。まだ気温も暖かいので温度も良くなかった。やはり冷凍が最強かもしれない。
 大元の鍋に入っている角煮は無事だろうか。冷蔵庫の中なら大丈夫と思いたい。早く消費したい。
 こういうことがあるから作り置きは避けたい。衛生においても一個流しは最強である。

 仕方がないのでセブンイレブンで一風堂監修のラーメンを買って食べた。なんか一蘭のラーメンを食べたくなった。

 家に帰って本元の鍋の角煮を見たところ、こちらも赤いものが付着していた。捨てた。調味料に見えなくもないのだけど、醤油と砂糖以外入れた覚えがないのでカビだと思う。もったいないが、健康には変えられない。体調を崩して寝こめば時給換算においても損だ。


金商法やべぇ

 knownetの検索のデモンストレーションのために、金商法の条文でも入れてやるかと思い、少し見て見てみたら、凄まじい文量で尻込みした。コレを入れようとするとまる一日かかってしまいそうだ。辞めとこうとなった。


knownetの検索機能を作っていたら頭がおかしくなってきた。

 投稿同士の多対多の紐付け・表題の完全一致検索・検索語の分かち書き だけで、擬似的な全文検索ができてしまった。わけがわからん。投稿そのものをインデックスとして使える特性によって全文検索が実現できている。ちゃんと全文検索を作ろうとすると、普通ならインデックスを作り込まないといけない。

 類似度継承によって、検索精度も他と比較にならない高さになっている。意図した検索結果が得られている。検索をより良くするための案である、応向分離もまだある。もしかしたならば、クローラーと組み合わせたならば、何もかもがうまく行ったならば、Google検索を超えられるのではないだろうか。