t_wの輪郭

1秒未満で検索が完了する
10個までしか検索結果が表示されない
- ページャー未実装
検索結果に重複がある
- 重複を削除する処理が未実装
見た目が悪い
- CSS未実装
  - node.jsで直接HTMLを吐き出しているため、複雑なフロントエンドを作るのは手間がかかる
    - テンプレートエンジンなどに乗り換えたい
検索結果の並びがクロールされた順番になっている
- ページランクで並び変える機能が未実装

デライトクローラ Elastic IP デライト外部検索通類のグローバルIP変更

Node.js puppeteer 検索エンジンクローラー 2020年9月20日デライトクローラデライト外部検索通類デライトでクローラーを回すデライトの生HTMLファイル容量実現性検証

あれ

2020/9/24 23:41:00

コマンドラインからデライトを検索できるところまでは来た
検索が一瞬で終わる
連想配列から単語をキーとしてURLを取ってくるだけなので早い
ただ、検索結果にURLしか表示されない
デライトクローラをメタデータだけでなくページ内の内容も保存するように改変する

あれ

Node.js puppeteer 検索エンジンクローラー 2020年9月20日デライトクローラデライト外部検索通類デライトでクローラーを回すデライトの生HTMLファイル容量実現性検証ページメタ情報の容量

クロールを途中から再開できるようにした

2020/9/22 9:57:00

デライトクローラの再開時に、ファイルに保存したメタデータを読み込むようにした
これでクロールを途中から再開できる
現時点では全メタデータを読み込む
メタデータの増加に合わせて、処理時間と消費メモリーが線形に増加する想定だ
こいつが膨大なデータを集めるまえに、よりかしこい処理方式を実装しなければならない

ページメタ情報の容量

Node.js 検索エンジンクローラー 2020年9月20日デライト外部検索通類をデプロイしたデライト外部検索通類デライトでクローラーを回すデライトの生HTMLファイル容量ページメタ情報の容量デライトをクロールデライトあれ

デライトクローラ

2020/9/22 9:54:00

デライト外部検索通類をデプロイしたあれクロールを途中から再開できるようにしたデライトでクローラーを回す Elastic IP デライト外部検索通類のグローバルIP変更 dlt_crawler.js

Node.js puppeteer 検索エンジンシステム構成図クローラー 2020年9月20日 miro デライト外部検索通類デライトでクローラーを回す実現性検証構成図

デライト外部検索通類構成概要図

2020/9/21 23:24:00

https://miro.com/app/board/o9J_kkgCSSo=/

あれ

Node.js puppeteer クローラー 2020年9月20日デライトクローラデライト外部検索通類デライトの生HTMLファイル容量実現性検証ページメタ情報の容量

デライトでクローラーを回す

2020/9/21 23:17:00

デライトから可能な限りデータを取ってきてみる
目的

デライトの外部検索通類の実現性検証
クローラー作成の学習

現在は1アクセス毎に1秒の遅延を入れる
　
クローラーはNode.jsのpuppeteerを使って作成

puppeteer デライト外部検索通類をデプロイしたあれクロールを途中から再開できるようにしたデライトクローラデライト外部検索通類構成概要図デライト外部検索通類 puppeteerでクロールする様子 Windows停止する puppeteer途中で止まるデライトの生HTMLファイル容量実現性検証ページメタ情報の容量野良クローラの推定容量『大規模なデータをJSON.stringifyとBlobを使って保存しようとしたら,ブラウザがエラーを出すときの対処法』一部機能をNode.jsからD言語に移行するクローラで得られるページ数ページのメタ情報だけを保存メタ情報入門自作検索エンジン桁数を一個減らしたい JSON.stringifyに大きいオブジェクトを渡すと、JSONに変換してくれない全輪郭の表題推定容量 WSL2 あれ dockerだとpuppeteerがいい感じに動いている WSL2のalpine上でpuppeteerが動かない検索エンジンをブラウザエクステンションで実装するアイデア