iAsk
『情報検索 :検索エンジンの実装と評価』
あれ
世の検索エンジンがベクトル検索を使ってるせいか知らんけども補正が強すぎる。
Xの方は字で検索してくれてる感じがあって「デススタバ」とか検索した時にしっくり来る結果が出てくる。
あれ
1週間ほどスマホのデフォルトの検索エンジンをGoogleからBingに変更してみているが、思ったような検索結果とならなくて辛い。
あれ
アメリカと戦うと言った意味では、まともな国産検索エンジンがないのが口惜しい。陰謀論みたいになってしまうが、アメリカがその気になればGoogle検索にくだらない記事を混入させるといったこともできてしまう。意図的じゃなくとも、検索結果にかける熱量もとい手間の量がそもそも違うだろう。ただ、現時点の話をすれば、Google検索は日本語を重要視しているらしい。
そう言った意味では、ローカルのPCでクローラを回してオープンソースの検索エンジンを動かすというのは悪いアイデアじゃない。今流行りのプライバシーにも完璧に対応できる。ただ、インターネットの圧倒的な物量にはインデックスであってもローカルのPCには入りきらないということが絶望的に欠点だった。
今から追い上げるのは難しいにしても、いつでも作れるような地固めはできないものだろうか。
「検索エンジンとコンテンツ作成者の間には利害の不一致」
ある。
でも、コンテンツを一つのサービスに閉じ込めて、それはインターネットのように継続できるのだろうか。
儲かり続けるなら継続できるだろうか。
サービスは消えるがプロトコルは残る。メールサービスは消えてもメール(SMTP)は消えない
「最強の検索エンジンを作るには最高の構造化エディタ(思考のためのツール)がいる」
検索エンジンとコンテンツ作成環境は両輪
『ウェブサイトを検索エンジンに送信する(そのタイミングと方法)』
新しい検索エンジンというアイデアは既知であり危地
最高のアイデアというのは不可能のすぐ手前にある。これがそもそも可能なのかどうか知らないが、可能かもしれない兆候はある。新しい検索エンジンを作るというのはGoogleと戦うことを意味するが、Googleの要塞にもひび割れができていることに最近気づいた。
Web Prowlerの検索エンジン化作業
- 拡張機能の名前を付ける
- 検索結果を良くする
- アイコン作成
- Pageオブジェクトを使いまわしてメモリー消費を抑える
- リンクをトークン化しない
- クローラの高速化
- accounts.google.com/をクローラでアクセスしない
✓右クリックメニューから検索可能にする
✓ショートカットキー設定
✓起動時読み込みの高速化
✓ポップアップ作成
✓文字列入力欄の作成
✓メモリにページを保存せず、ストレージに保存する
✖indexedDBのラッパーを、localforageからjsStoreに乗り換える
✖検索エンジンに設定できるようにする
Web Prowlerの検索エンジン化案
レコメンデーションシステムとしてのWeb Prowlerはあまり満足のいくものにはならなかった。方針転換して検索エンジンにしてしまうのも良いかもしれない。そうすればChrome addon化も可能になり利用者数増大を狙うこともできる。
- 利点
- 実装が楽しい
- 秘匿情報(企業内の情報、ブックマーク、履歴)が扱える
- 欠点
- 実現可能性が低い。
- 実装がめんどくさい。今のデータ構造だと扱えるデータ量に限界がある。
- Google, Mozillaから嫌がられる。彼らの収益を毀損してしまう。
Bing
DuckDuckGo
複数の検索エンジンのラッパー
Startpage
検索エンジン
search_provider
ブラウザ拡張機能から検索エンジンを設定できる
っぽい
Google検索
「情報検索:検索エンジンの実装と評価」(Buttcher本) Advent Calendar 2020
『動的転置インデックス — 増分インデックスの保守と更新性能&検索性能のトレードオフ』
https://mocobeta.medium.com/動的転置インデックス-増分インデックスの保守とインデックス更新-検索性能のトレードオフ-598337dbf3a3
検索エンジンの転置インデックスがでかくなりすぎてメモリーに乗っからなくなった時に、どういう対処があるかについて書かれてる
「情報検索:検索エンジンの実装と評価」1章 イントロダクション
高い本は何とか理由をつけて会社に買わせたい
デライト外部検索通類をデプロイした
デライト外部検索通類をAWSへデプロイした。↓のリンクから利用できる
http://ec2-52-193-108-6.ap-northeast-1.compute.amazonaws.com:8080/
デライトクローラが取得した1万9千の輪郭から検索できる
- 1秒未満で検索が完了する
- 10個までしか検索結果が表示されない
- ページャー未実装
- 検索結果に重複がある
- 重複を削除する処理が未実装
- 見た目が悪い
- CSS未実装
- node.jsで直接HTMLを吐き出しているため、複雑なフロントエンドを作るのは手間がかかる
- テンプレートエンジンなどに乗り換えたい
- node.jsで直接HTMLを吐き出しているため、複雑なフロントエンドを作るのは手間がかかる
- CSS未実装
- 検索結果の並びがクロールされた順番になっている
- ページランクで並び変える機能が未実装
あれ
コマンドラインからデライトを検索できるところまでは来た
検索が一瞬で終わる
連想配列から単語をキーとしてURLを取ってくるだけなので早い
ただ、検索結果にURLしか表示されない
デライトクローラをメタデータだけでなくページ内の内容も保存するように改変する
クロールを途中から再開できるようにした
デライトクローラの再開時に、ファイルに保存したメタデータを読み込むようにした
これでクロールを途中から再開できる
現時点では全メタデータを読み込む
メタデータの増加に合わせて、処理時間と消費メモリーが線形に増加する想定だ
こいつが膨大なデータを集めるまえに、よりかしこい処理方式を実装しなければならない