t_wの輪郭

Feedlyでフォローするボタン
検索類似度継承

類似度継承

2023/11/9 23:23:00

検索語と検索対象の類似度によって順位付けを行う検索において、検索対象の上位に紐付けられたものの類似度を、検索対象の類似度として合算してしまうという手法

ある検索対象自身の類似度がたまたま高くなってしまって、検索結果においてノイズとなる可能性があるが、複数の類似度の合算とすることで、類似度のブレを抑えることが出来る。

あれ2023年11月9日日記

あれ

2023/11/26 18:51:00

検索結果を、さらに階層構造を基にあれこれしようとすると大変そう。

「前景と後景を2回まで辿れば、類義語で検索できるぞ」とか、「文章の類似度を前景から継承して合算すれば、前景が多く付けられている輪郭を優先して出せる上に、類似度のバラツキを補完できるぞ」とか、「非表示の前景を自動生成すれば全文検索ができるぞ」とかやったら、検索の処理に5〜6秒とめっちゃ時間かかるようになりましたね……。
その代わりに検索の精度はめちゃくちゃ良いです。

2023年11月9日日記

2023/11/9 23:17:00

出社・退社

 8:30に出社した。7.5時間労働なので、17:00に退社できる。
 17:30ごろに退社した。30分の残業。


昼ごはんに持ってきた弁当に入れた角煮カビが生えていた。

 鍋から冷たいままお箸で入れたのが良くなかったのだろう。角煮に火を入れた後にインテグレーションして密封すればまだマシだったはずだ。まだ気温も暖かいので温度も良くなかった。やはり冷凍が最強かもしれない。
 大元の鍋に入っている角煮は無事だろうか。冷蔵庫の中なら大丈夫と思いたい。早く消費したい。
 こういうことがあるから作り置きは避けたい。衛生においても一個流しは最強である。

 仕方がないのでセブンイレブンで一風堂監修のラーメンを買って食べた。なんか一蘭のラーメンを食べたくなった。

 家に帰って本元の鍋の角煮を見たところ、こちらも赤いものが付着していた。捨てた。調味料に見えなくもないのだけど、醤油と砂糖以外入れた覚えがないのでカビだと思う。もったいないが、健康には変えられない。体調を崩して寝こめば時給換算においても損だ。


金商法やべぇ

 knownetの検索のデモンストレーションのために、金商法の条文でも入れてやるかと思い、少し見て見てみたら、凄まじい文量で尻込みした。コレを入れようとするとまる一日かかってしまいそうだ。辞めとこうとなった。


knownetの検索機能を作っていたら頭がおかしくなってきた。

 投稿同士の多対多の紐付け・表題の完全一致検索・検索語の分かち書き だけで、擬似的な全文検索ができてしまった。わけがわからん。投稿そのものをインデックスとして使える特性によって全文検索が実現できている。ちゃんと全文検索を作ろうとすると、普通ならインデックスを作り込まないといけない。

 類似度継承によって、検索精度も他と比較にならない高さになっている。意図した検索結果が得られている。検索をより良くするための案である、応向分離もまだある。もしかしたならば、クローラーと組み合わせたならば、何もかもがうまく行ったならば、Google検索を超えられるのではないだろうか。