類似度継承
検索語と検索対象の類似度によって順位付けを行う検索において、検索対象の上位に紐付けられたものの類似度を、検索対象の類似度として合算してしまうという手法
ある検索対象自身の類似度がたまたま高くなってしまって、検索結果においてノイズとなる可能性があるが、複数の類似度の合算とすることで、類似度のブレを抑えることが出来る。
検索語と検索対象の類似度によって順位付けを行う検索において、検索対象の上位に紐付けられたものの類似度を、検索対象の類似度として合算してしまうという手法
ある検索対象自身の類似度がたまたま高くなってしまって、検索結果においてノイズとなる可能性があるが、複数の類似度の合算とすることで、類似度のブレを抑えることが出来る。
検索結果を、さらに階層構造を基にあれこれしようとすると大変そう。
「前景と後景を2回まで辿れば、類義語で検索できるぞ」とか、「文章の類似度を前景から継承して合算すれば、前景が多く付けられている輪郭を優先して出せる上に、類似度のバラツキを補完できるぞ」とか、「非表示の前景を自動生成すれば全文検索ができるぞ」とかやったら、検索の処理に5〜6秒とめっちゃ時間かかるようになりましたね……。
その代わりに検索の精度はめちゃくちゃ良いです。
8:30に出社した。7.5時間労働なので、17:00に退社できる。
17:30ごろに退社した。30分の残業。
鍋から冷たいままお箸で入れたのが良くなかったのだろう。角煮に火を入れた後にインテグレーションして密封すればまだマシだったはずだ。まだ気温も暖かいので温度も良くなかった。やはり冷凍が最強かもしれない。
大元の鍋に入っている角煮は無事だろうか。冷蔵庫の中なら大丈夫と思いたい。早く消費したい。
こういうことがあるから作り置きは避けたい。衛生においても一個流しは最強である。
仕方がないのでセブンイレブンで一風堂監修のラーメンを買って食べた。なんか一蘭のラーメンを食べたくなった。
家に帰って本元の鍋の角煮を見たところ、こちらも赤いものが付着していた。捨てた。調味料に見えなくもないのだけど、醤油と砂糖以外入れた覚えがないのでカビだと思う。もったいないが、健康には変えられない。体調を崩して寝こめば時給換算においても損だ。
knownetの検索のデモンストレーションのために、金商法の条文でも入れてやるかと思い、少し見て見てみたら、凄まじい文量で尻込みした。コレを入れようとするとまる一日かかってしまいそうだ。辞めとこうとなった。
投稿同士の多対多の紐付け・表題の完全一致検索・検索語の分かち書き だけで、擬似的な全文検索ができてしまった。わけがわからん。投稿そのものをインデックスとして使える特性によって全文検索が実現できている。ちゃんと全文検索を作ろうとすると、普通ならインデックスを作り込まないといけない。
類似度継承によって、検索精度も他と比較にならない高さになっている。意図した検索結果が得られている。検索をより良くするための案である、応向分離もまだある。もしかしたならば、クローラーと組み合わせたならば、何もかもがうまく行ったならば、Google検索を超えられるのではないだろうか。