t_wの輪郭

高い本は何とか理由をつけて会社に買わせたい『情報検索 :検索エンジンの実装と評価』Google検索Solrあれ国産検索エンジンsearch_providerBingあれWeb Prowlerの検索エンジン化作業StartpageDuckDuckGo新しい検索エンジンというアイデアは既知であり危地検索エンジン最適化「検索エンジンとコンテンツ作成者の間には利害の不一致」「情報検索:検索エンジンの実装と評価」1章 イントロダクション『動的転置インデックス — 増分インデックスの保守と更新性能&検索性能のトレードオフ』「情報検索:検索エンジンの実装と評価」(Buttcher本) Advent Calendar 2020「最強の検索エンジンを作るには最高の構造化エディタ(思考のためのツール)がいる」入門自作検索エンジンデライトクローラあれ全文検索エンジンあれSwoogle書ける検索エンジンWeb Prowlerの検索エンジン化案クロールを途中から再開できるようにしたあれデライト外部検索通類をデプロイした『ウェブサイトを検索エンジンに送信する(そのタイミングと方法)』デライト外部検索通類 構成概要図

デライト外部検索通類AWSデプロイした。↓のリンクから利用できる
http://ec2-52-193-108-6.ap-northeast-1.compute.amazonaws.com:8080/
 
デライトクローラが取得した1万9千の輪郭から検索できる

  • 1秒未満で検索が完了する
  • 10個までしか検索結果が表示されない
    • ページャー未実装
  • 検索結果に重複がある
    • 重複を削除する処理が未実装
  • 見た目が悪い
    • CSS未実装
      • node.jsで直接HTMLを吐き出しているため、複雑なフロントエンドを作るのは手間がかかる
        • テンプレートエンジンなどに乗り換えたい
  • 検索結果の並びがクロールされた順番になっている
    • ページランクで並び変える機能が未実装
Google検索は文字コードの上に成り立っているあれGoogle Search ConsoleあれGoogle検索は日本語を重要視「Google検索によって発見され、Google Adsenseの広告によって収益を得る。企業案件やアフィリエイトブログでなければ、これがブログの最もメジャーな運用」Google検索のコツあれデライトの人口が増えたら、一つの輪郭に文脈を無視して何でもかんでも放り込まれるかあれ『Google検索結果から特定サイトを除外する – ヤバいサイトの見分け方』「(Google検索の検索結果は)企業が運営する「内容が薄い」「無駄に長い」記事が検索結果の上位を独占する」「メモ 知能増幅」でGoogle検索するとデライトが一番上に来ているコンテンツファームgoogle検索で、  {検索ワード} site:https://t.co/wW3oSRo80N と検索しても何も出てこない ユーザのいいね一覧ページは、インデックスされないらしい。Googleにインデックスされているか確認する方法インデックス『コマンドラインからGoogle検索できるツールGooglerの使い方』Google検索も独占的な商品だったが、顧客を奪われようとしているあれとりあえずfaviconをSVGで作っておけばGoogle検索の検索結果に表示されるGoogle検索悲観論

デライトクローラの再開時に、ファイルに保存したメタデータを読み込むようにした
これでクロールを途中から再開できる
現時点では全メタデータを読み込む
メタデータの増加に合わせて、処理時間と消費メモリーが線形に増加する想定だ
こいつが膨大なデータを集めるまえに、よりかしこい処理方式を実装しなければならない

あれ

2024/1/6 20:56:00

世の検索エンジンがベクトル検索を使ってるせいか知らんけども補正が強すぎる。

Xの方は字で検索してくれてる感じがあって「デススタバ」とか検索した時にしっくり来る結果が出てくる。

あれ

2020/9/24 23:41:00

コマンドラインからデライトを検索できるところまでは来た
検索が一瞬で終わる
連想配列から単語をキーとしてURLを取ってくるだけなので早い
ただ、検索結果にURLしか表示されない
デライトクローラをメタデータだけでなくページ内の内容も保存するように改変する