t_wの輪郭

Feedlyでフォローするボタン
検索Rustで作りたいものエンジン
あれデライト外部検索通類をデプロイしたあれクロールを途中から再開できるようにしたデライトクローラデライト外部検索通類 構成概要図入門自作検索エンジン「最強の検索エンジンを作るには最高の構造化エディタ(思考のためのツール)がいる」『動的転置インデックス — 増分インデックスの保守と更新性能&検索性能のトレードオフ』Google検索「情報検索:検索エンジンの実装と評価」(Buttcher本) Advent Calendar 2020『情報検索 :検索エンジンの実装と評価』「情報検索:検索エンジンの実装と評価」1章 イントロダクションDuckDuckGoWeb Prowlerの検索エンジン化作業Web Prowlerの検索エンジン化案あれ書ける検索エンジン「検索エンジンとコンテンツ作成者の間には利害の不一致」検索エンジン最適化新しい検索エンジンというアイデアは既知であり危地StartpageあれBing国産検索エンジン『ウェブサイトを検索エンジンに送信する(そのタイミングと方法)』Kagi全文検索エンジンあれSwoogleSolr高い本は何とか理由をつけて会社に買わせたいsearch_providerRSS化できる検索エンジン『Xユーザーの辻正浩 | Masahiro Tsujiさん: 「「最大手検索エンジン以外はサーバ負荷からまともにクロールさせてもらえない問題」の対応のため、Microsoft Bingはサイト管理者からコンテンツを送りクロールを削減するBing Content Submission APIや他社と連携したIndexNowの仕組みなどで試行錯誤した。 一方BraveはGoogleを名乗ってクロールした」 / X』Ecosia政治的な検索エンジン『An Introduction to Search and Recommender Systems for Product Manager - Speaker Deck』

https://x.com/tsuj/status/1816683754368434632

あれ

2024/1/6 20:56:00

世の検索エンジンがベクトル検索を使ってるせいか知らんけども補正が強すぎる。

Xの方は字で検索してくれてる感じがあって「デススタバ」とか検索した時にしっくり来る結果が出てくる。

あれ

2024/1/4 21:58:00

1週間ほどスマホのデフォルトの検索エンジンをGoogleからBingに変更してみているが、思ったような検索結果とならなくて辛い。

あれ

2023/12/8 19:43:00

早く自作の検索エンジンを作らねば。

Swoogle

2023/5/5 21:17:00

セマンティックウェブに対応したオントロジーの検索エンジン

Solr

2022/11/4 11:23:00

あれ

2022/9/24 13:15:00

 アメリカと戦うと言った意味では、まともな国産検索エンジンがないのが口惜しい。陰謀論みたいになってしまうが、アメリカがその気になればGoogle検索にくだらない記事を混入させるといったこともできてしまう。意図的じゃなくとも、検索結果にかける熱量もとい手間の量がそもそも違うだろう。ただ、現時点の話をすれば、Google検索は日本語を重要視しているらしい。

 そう言った意味では、ローカルのPCでクローラを回してオープンソースの検索エンジンを動かすというのは悪いアイデアじゃない。今流行りのプライバシーにも完璧に対応できる。ただ、インターネットの圧倒的な物量にはインデックスであってもローカルのPCには入りきらないということが絶望的に欠点だった。

 今から追い上げるのは難しいにしても、いつでも作れるような地固めはできないものだろうか。

ある。
でも、コンテンツを一つのサービスに閉じ込めて、それはインターネットのように継続できるのだろうか。
儲かり続けるなら継続できるだろうか。

サービスは消えるがプロトコルは残る。メールサービスは消えてもメール(SMTP)は消えない

最高のアイデアというのは不可能のすぐ手前にある。これがそもそも可能なのかどうか知らないが、可能かもしれない兆候はある。新しい検索エンジンを作るというのはGoogleと戦うことを意味するが、Googleの要塞にもひび割れができていることに最近気づいた。

✓右クリックメニューから検索可能にする
✓ショートカットキー設定
✓起動時読み込みの高速化
✓ポップアップ作成
✓文字列入力欄の作成
✓メモリにページを保存せず、ストレージに保存する
✖indexedDBのラッパーを、localforageからjsStoreに乗り換える
✖検索エンジンに設定できるようにする

レコメンデーションシステムとしてのWeb Prowlerはあまり満足のいくものにはならなかった。方針転換して検索エンジンにしてしまうのも良いかもしれない。そうすればChrome addon化も可能になり利用者数増大を狙うこともできる。

  • 利点
    • 実装が楽しい
    • 秘匿情報(企業内の情報、ブックマーク、履歴)が扱える
  • 欠点
    • 実現可能性が低い。
    • 実装がめんどくさい。今のデータ構造だと扱えるデータ量に限界がある。
    • Google, Mozillaから嫌がられる。彼らの収益を毀損してしまう。

Bing

2021/8/26 6:53:00

DuckDuckGo

2021/8/25 8:18:00
複数の検索エンジンのラッパー
良さそうなので試したのですが、検索結果に変化は生じませんでした。DDGが複合型検索発動機というのはちょっと違うかな…あれ日本語圏のユーザーには DuckDuckGo よりも startpage.com がオススメDuckDuckGoによるロビー活動『検索エンジン「ダックダックゴー」、プライバシーを追求する : その数奇な歴史と可能性』Instant AnswersあれInstant Answersにページャーがない「DuckDuckGo は様々なベンダー(Yahoo! Search BOSSなど)が提供する検索APIを主として利用するよう構築されている。」〈DuckDuckGo〉Tor Browserを使ってドイツのIP番地から検索してみましたが,やはり表示されるページは同じでした『DuckDuckGo を検索バーに追加するときの URL パラメータ – 怠惰の形而上学』『How To Use URL Parameters To Change Your DuckDuckGo Search Settings | DuckDuckGo Help Pages』『技術者にとって代えがたき至高の検索ツールとしての DuckDuckGo: !Bangs のすすめ – yokkin.com』!BangsあれDuckDuckGoをRSS化DuckDuckGo

Startpage

2021/8/24 21:51:00

検索エンジン

search_provider

2021/8/22 16:51:00

ブラウザ拡張機能から検索エンジンを設定できる
っぽい

インデックスGoogle検索悲観論「Google検索によって発見され、Google Adsenseの広告によって収益を得る。企業案件やアフィリエイトブログでなければ、これがブログの最もメジャーな運用」あれGoogle検索のコツgoogle検索で、  {検索ワード} site:https://t.co/wW3oSRo80N と検索しても何も出てこない ユーザのいいね一覧ページは、インデックスされないらしい。Googleにインデックスされているか確認する方法あれデライトの人口が増えたら、一つの輪郭に文脈を無視して何でもかんでも放り込まれるかコンテンツファーム「メモ 知能増幅」でGoogle検索するとデライトが一番上に来ているとりあえずfaviconをSVGで作っておけばGoogle検索の検索結果に表示される「(Google検索の検索結果は)企業が運営する「内容が薄い」「無駄に長い」記事が検索結果の上位を独占する」『Google検索結果から特定サイトを除外する – ヤバいサイトの見分け方』あれGoogle検索も独占的な商品だったが、顧客を奪われようとしているあれGoogle検索は日本語を重要視Google Search ConsoleあれGoogle検索は文字コードの上に成り立っているGoogle検索を支える巧妙なアイデア「ランダムサーファー」【Google2】『コマンドラインからGoogle検索できるツールGooglerの使い方』Google検索のメタクソ化パンダアップデートあれあれあれ

デライト外部検索通類AWSデプロイした。↓のリンクから利用できる
http://ec2-52-193-108-6.ap-northeast-1.compute.amazonaws.com:8080/
 
デライトクローラが取得した1万9千の輪郭から検索できる

  • 1秒未満で検索が完了する
  • 10個までしか検索結果が表示されない
    • ページャー未実装
  • 検索結果に重複がある
    • 重複を削除する処理が未実装
  • 見た目が悪い
    • CSS未実装
      • node.jsで直接HTMLを吐き出しているため、複雑なフロントエンドを作るのは手間がかかる
        • テンプレートエンジンなどに乗り換えたい
  • 検索結果の並びがクロールされた順番になっている
    • ページランクで並び変える機能が未実装

あれ

2020/9/24 23:41:00

コマンドラインからデライトを検索できるところまでは来た
検索が一瞬で終わる
連想配列から単語をキーとしてURLを取ってくるだけなので早い
ただ、検索結果にURLしか表示されない
デライトクローラをメタデータだけでなくページ内の内容も保存するように改変する

デライトクローラの再開時に、ファイルに保存したメタデータを読み込むようにした
これでクロールを途中から再開できる
現時点では全メタデータを読み込む
メタデータの増加に合わせて、処理時間と消費メモリーが線形に増加する想定だ
こいつが膨大なデータを集めるまえに、よりかしこい処理方式を実装しなければならない