t_wの輪郭

　アメリカと戦うと言った意味では、まともな国産検索エンジンがないのが口惜しい。陰謀論みたいになってしまうが、アメリカがその気になればGoogle検索にくだらない記事を混入させるといったこともできてしまう。意図的じゃなくとも、検索結果にかける熱量もとい手間の量がそもそも違うだろう。ただ、現時点の話をすれば、Google検索は日本語を重要視しているらしい。

　そう言った意味では、ローカルのPCでクローラを回してオープンソースの検索エンジンを動かすというのは悪いアイデアじゃない。今流行りのプライバシーにも完璧に対応できる。ただ、インターネットの圧倒的な物量にはインデックスであってもローカルのPCには入りきらないということが絶望的に欠点だった。

　今から追い上げるのは難しいにしても、いつでも作れるような地固めはできないものだろうか。

Google検索は日本語を重要視

検索エンジン継続コンテンツ作成者 Nota Tech Conf 2022 Spring Day1 サービスは消えるがプロトコルは残る儲かり続ける利害の不一致

「検索エンジンとコンテンツ作成者の間には利害の不一致」

2022/5/17 19:45:00

ある。
でも、コンテンツを一つのサービスに閉じ込めて、それはインターネットのように継続できるのだろうか。
儲かり続けるなら継続できるだろうか。

サービスは消えるがプロトコルは残る。メールサービスは消えてもメール（SMTP）は消えない

あれ

検索エンジンコンテンツ作成環境構造化エディタ Nota Tech Conf 2022 Spring Day1

「最強の検索エンジンを作るには最高の構造化エディタ（思考のためのツール）がいる」

2022/5/17 19:24:00

検索エンジンとコンテンツ作成環境は両輪

あれ

検索エンジン XMLサイトマップ

『ウェブサイトを検索エンジンに送信する（そのタイミングと方法）』

2022/5/3 10:30:00

https://kinsta.com/jp/blog/submit-website-to-search-engines/

あれ

検索エンジン書ける

書ける検索エンジン

2022/3/19 12:13:00

書ける検索エンジン

デライト(なんでもメモ)あれあれ

検索エンジン国産

国産検索エンジン

2022/3/13 15:03:00

あれ国産検索エンジン開発が頓挫した先にあるもの

検索エンジンアイデア怖いくらいに野心的なスタートアップのアイデア危地既知

新しい検索エンジンというアイデアは既知であり危地

2021/11/19 17:00:00

最高のアイデアというのは不可能のすぐ手前にある。これがそもそも可能なのかどうか知らないが、可能かもしれない兆候はある。新しい検索エンジンを作るというのはGoogleと戦うことを意味するが、Googleの要塞にもひび割れができていることに最近気づいた。
── 怖いくらいに野心的なスタートアップのアイデア

あれ

検索エンジン作業 Web Prowler Web Prowlerの検索エンジン化案

Web Prowlerの検索エンジン化作業

2021/8/29 11:14:00

拡張機能の名前を付ける
検索結果を良くする
アイコン作成
Pageオブジェクトを使いまわしてメモリー消費を抑える
リンクをトークン化しない
クローラの高速化
accounts.google.com/をクローラでアクセスしない

✓右クリックメニューから検索可能にする
✓ショートカットキー設定
✓起動時読み込みの高速化
✓ポップアップ作成
✓文字列入力欄の作成
✓メモリにページを保存せず、ストレージに保存する
✖indexedDBのラッパーを、localforageからjsStoreに乗り換える
✖検索エンジンに設定できるようにする

Web Prowlerを検索エンジンに設定できるようにする accounts.google.com/をクローラでアクセスしないようにする検索エンジン化したWeb Prowlerの名前案あれ indexedDBのラッパーを、localforageからjsStoreに乗り換える indexedDBへの保存のジレンマ

検索エンジン Web Prowler 案収益を毀損 Chrome addon

Web Prowlerの検索エンジン化案

2021/8/26 6:59:00

レコメンデーションシステムとしてのWeb Prowlerはあまり満足のいくものにはならなかった。方針転換して検索エンジンにしてしまうのも良いかもしれない。そうすればChrome addon化も可能になり利用者数増大を狙うこともできる。

利点
- 実装が楽しい
- 秘匿情報（企業内の情報、ブックマーク、履歴）が扱える
欠点
- 実現可能性が低い。
- 実装がめんどくさい。今のデータ構造だと扱えるデータ量に限界がある。
- Google, Mozillaから嫌がられる。彼らの収益を毀損してしまう。

Web Prowlerの検索エンジン化作業あれ

検索サイト検索エンジン

Bing

2021/8/26 6:53:00

Bingアプリ Bing Webmaster Tools あれあれ Bing『高度な検索オプション』Firefox addon: Microsoft Bing 検索エンジン Bing Content Submission API 『Xユーザーの辻正浩 | Masahiro Tsujiさん: 「「最大手検索エンジン以外はサーバ負荷...IndexNow

検索エンジン DDGが複合型検索発動機というのはちょっと違うかな…あれ

DuckDuckGo

2021/8/25 8:18:00

複数の検索エンジンのラッパー

良さそうなので試したのですが、検索結果に変化は生じませんでした。DDGが複合型検索発動機というのはちょっと違うかな…あれ『日本語圏のユーザーには DuckDuckGo よりも startpage.com がオススメ』DuckDuckGoによるロビー活動『検索エンジン「ダックダックゴー」、プライバシーを追求する：その数奇な歴史と可能性』Instant Answers あれ Instant Answersにページャーがない「DuckDuckGo は様々なベンダー（Yahoo! Search BOSSなど）が提供する検索APIを主として利用するよう構築されている。」〈DuckDuckGo〉Tor Browserを使ってドイツのIP番地から検索してみましたが，やはり表示されるページは同じで...『DuckDuckGo を検索バーに追加するときの URL パラメータ – 怠惰の形而上学』『How To Use URL Parameters To Change Your DuckDuck...『技術者にとって代えがたき至高の検索ツールとしての DuckDuckGo: !Bangs のすすめ ...!Bangs あれ DuckDuckGoをRSS化 DuckDuckGo

検索エンジン

Startpage

2021/8/24 21:51:00

検索エンジン

『日本語圏のユーザーには DuckDuckGo よりも startpage.com がオススメ』『Startpage - Private Search Engine. No Tracking. N...

検索エンジン chrome_settings_overrides

search_provider

2021/8/22 16:51:00

ブラウザ拡張機能から検索エンジンを設定できる
っぽい

拡張機能から拡張機能のページを検索エンジンとして登録することはできない（っぽい）あれ

Google 検索サイト検索エンジン検索

Google検索

2021/3/20 9:42:00

インデックス Google検索悲観論「Google検索によって発見され、Google Adsenseの広告によって収益を得る。企業案件やアフィリエイトブログでなければ、これがブログの最もメジャーな運用」あれ Google検索のコツ google検索で、　{検索ワード} site:https://t.co/wW3oSRo80N と...Googleにインデックスされているか確認する方法あれデライトの人口が増えたら、一つの輪郭に文脈を無視して何でもかんでも放り込まれるかコンテンツファーム「メモ知能増幅」でGoogle検索するとデライトが一番上に来ているとりあえずfaviconをSVGで作っておけばGoogle検索の検索結果に表示される「（Google検索の検索結果は）企業が運営する「内容が薄い」「無駄に長い」記事が検索結果の上位を独...『Google検索結果から特定サイトを除外する – ヤバいサイトの見分け方』あれ Google検索も独占的な商品だったが、顧客を奪われようとしているあれ Google検索は日本語を重要視 Google Search Console あれ Google検索は文字コードの上に成り立っている Google検索を支える巧妙なアイデア「ランダムサーファー」【Google2】『コマンドラインからGoogle検索できるツールGooglerの使い方』Google検索のメタクソ化パンダアップデートあれあれあれあれあれ Google検索はAIが書いた記事を弾く Google求人検索 Ad-Free Search 『広告やAI要約なしのグーグル検索結果がみられるサービス「Ad-Free Search」 - 世界の...Google Alerts

検索エンジン『情報検索 :検索エンジンの実装と評価』

「情報検索：検索エンジンの実装と評価」（Buttcher本） Advent Calendar 2020

2020/12/23 0:33:00

https://adventar.org/calendars/4968

『動的転置インデックス — 増分インデックスの保守と更新性能&検索性能のトレードオフ』「情報検索：検索エンジンの実装と評価」1章イントロダクション

検索エンジン転置インデックス「情報検索：検索エンジンの実装と評価」（Buttcher本） Advent Calendar 2020 『情報検索 :検索エンジンの実装と評価』

『動的転置インデックス — 増分インデックスの保守と更新性能&検索性能のトレードオフ』

2020/12/23 0:30:00

https://mocobeta.medium.com/動的転置インデックス-増分インデックスの保守とインデックス更新-検索性能のトレードオフ-598337dbf3a3
　
検索エンジンの転置インデックスがでかくなりすぎてメモリーに乗っからなくなった時に、どういう対処があるかについて書かれてる

あれ

本検索エンジン技術「情報検索：検索エンジンの実装と評価」（Buttcher本） Advent Calendar 2020 『情報検索 :検索エンジンの実装と評価』技術文録人間だったら考えて

「情報検索：検索エンジンの実装と評価」1章イントロダクション

2020/12/23 0:15:00

https://www.szdrblog.info/entry/2020/11/25/002922

あれ

本検索エンジン『情報検索 :検索エンジンの実装と評価』

高い本は何とか理由をつけて会社に買わせたい

2020/12/23 0:14:00

『情報検索 :検索エンジンの実装と評価』　13200円
個人で買うには勇気がいる
何とか理由をつけて会社に買わせたい

あれ

Node.js puppeteer 検索エンジンクローラー 2020年9月20日デライトクローラデライト外部検索通類デライトでクローラーを回すデライトの生HTMLファイル容量実現性検証デプロイあれ

デライト外部検索通類をデプロイした

2020/9/28 0:41:00

デライト外部検索通類をAWSへデプロイした。↓のリンクから利用できる
http://ec2-52-193-108-6.ap-northeast-1.compute.amazonaws.com:8080/
　
デライトクローラが取得した1万9千の輪郭から検索できる

1秒未満で検索が完了する
10個までしか検索結果が表示されない
- ページャー未実装
検索結果に重複がある
- 重複を削除する処理が未実装
見た目が悪い
- CSS未実装
  - node.jsで直接HTMLを吐き出しているため、複雑なフロントエンドを作るのは手間がかかる
    - テンプレートエンジンなどに乗り換えたい
検索結果の並びがクロールされた順番になっている
- ページランクで並び変える機能が未実装

デライトクローラ Elastic IP デライト外部検索通類のグローバルIP変更

Node.js puppeteer 検索エンジンクローラー 2020年9月20日デライトクローラデライト外部検索通類デライトでクローラーを回すデライトの生HTMLファイル容量実現性検証

あれ

2020/9/24 23:41:00

コマンドラインからデライトを検索できるところまでは来た
検索が一瞬で終わる
連想配列から単語をキーとしてURLを取ってくるだけなので早い
ただ、検索結果にURLしか表示されない
デライトクローラをメタデータだけでなくページ内の内容も保存するように改変する

あれ

Node.js puppeteer 検索エンジンクローラー 2020年9月20日デライトクローラデライト外部検索通類デライトでクローラーを回すデライトの生HTMLファイル容量実現性検証ページメタ情報の容量

クロールを途中から再開できるようにした

2020/9/22 9:57:00

デライトクローラの再開時に、ファイルに保存したメタデータを読み込むようにした
これでクロールを途中から再開できる
現時点では全メタデータを読み込む
メタデータの増加に合わせて、処理時間と消費メモリーが線形に増加する想定だ
こいつが膨大なデータを集めるまえに、よりかしこい処理方式を実装しなければならない

ページメタ情報の容量

Node.js 検索エンジンクローラー 2020年9月20日デライト外部検索通類をデプロイしたデライト外部検索通類デライトでクローラーを回すデライトの生HTMLファイル容量ページメタ情報の容量デライトをクロールデライトあれ

デライトクローラ

2020/9/22 9:54:00

デライト外部検索通類をデプロイしたあれクロールを途中から再開できるようにしたデライトでクローラーを回す Elastic IP デライト外部検索通類のグローバルIP変更 dlt_crawler.js

Node.js puppeteer 検索エンジンシステム構成図クローラー 2020年9月20日 miro デライト外部検索通類デライトでクローラーを回す実現性検証構成図

デライト外部検索通類構成概要図

2020/9/21 23:24:00

https://miro.com/app/board/o9J_kkgCSSo=/

あれ

検索エンジンクローラーデライトでクローラーを回すデライトの生HTMLファイル容量ページメタ情報の容量野良クローラの推定容量クローラで得られるページ数ページのメタ情報だけを保存メタ情報全輪郭の表題推定容量

入門自作検索エンジン

2020/9/21 19:14:00

検索エンジンの作り方についてのスライド
https://speakerdeck.com/ryook/the-first-step-self-made-full-text-search

あれ