デライトの生HTMLファイル容量

2020/9/21 14:20:00

27.23404255319149KB

0.026595744680851064 MB

10/376 MB

376ファイルで、10MB程度になった
想定よりも容量が大きい
2,600,000ファイルなら、69148MB＝69GB
　
生のHTMLを保存しているから大きいのだろう
クローラを野に放つなら、生のHTMLではなくインデックスを保存したほうが良さそうだ

ひとまずネットワーク容量と、保存容量の限界まで回してみる
→プロバイダから怒られるかもと思ったが、ゲームのダウンロードに比べれば、かわいい物だな

全輪郭の表題推定容量 puppeteer途中で止まるあれ WSL2 WSL2のalpine上でpuppeteerが動かない dockerだとpuppeteerがいい感じに動いているあれ Windows停止するメタ情報ページのメタ情報だけを保存ページメタ情報の容量クローラで得られるページ数桁数を一個減らしたい入門自作検索エンジン野良クローラの推定容量デライトでクローラーを回すデライトクローラクロールを途中から再開できるようにしたあれデライト外部検索通類をデプロイしたデライト外部検索通類

Node.js デライトでクローラーを回すデライトの生HTMLファイル容量 puppeteer 実現性検証 2020年9月20日クローラー検索

デライト外部検索通類

2020/9/21 23:17:00

デライトでクローラーを回すデライトクローラクロールを途中から再開できるようにしたあれデライト外部検索通類をデプロイしたあれデライト外部検索通類のグローバルIP変更 Elastic IP デライト外部検索通類構成概要図

Node.js デプロイ検索エンジンデライトクローラデライトでクローラーを回すデライトの生HTMLファイル容量 2020年9月20日実現性検証 puppeteer あれデライト外部検索通類クローラー

デライト外部検索通類をデプロイした

2020/9/28 0:41:00

デライト外部検索通類をAWSへデプロイした。↓のリンクから利用できる
http://ec2-52-193-108-6.ap-northeast-1.compute.amazonaws.com:8080/
　
デライトクローラが取得した1万9千の輪郭から検索できる

1秒未満で検索が完了する
10個までしか検索結果が表示されない
- ページャー未実装
検索結果に重複がある
- 重複を削除する処理が未実装
見た目が悪い
- CSS未実装
  - node.jsで直接HTMLを吐き出しているため、複雑なフロントエンドを作るのは手間がかかる
    - テンプレートエンジンなどに乗り換えたい
検索結果の並びがクロールされた順番になっている
- ページランクで並び変える機能が未実装

デライトクローラデライト外部検索通類のグローバルIP変更 Elastic IP

デライト外部検索通類をデプロイしたページメタ情報の容量デライトをクロール Node.js 検索エンジンデライトでクローラーを回すデライトの生HTMLファイル容量 2020年9月20日デライトあれデライト外部検索通類クローラー

デライトクローラ

2020/9/22 9:54:00

デライトでクローラーを回す dlt_crawler.js クロールを途中から再開できるようにしたあれデライト外部検索通類をデプロイしたデライト外部検索通類のグローバルIP変更 Elastic IP

ページメタ情報の容量 Node.js 検索エンジンデライトクローラデライトでクローラーを回すデライトの生HTMLファイル容量 puppeteer 実現性検証 2020年9月20日デライト外部検索通類クローラー

クロールを途中から再開できるようにした

2020/9/22 9:57:00

デライトクローラの再開時に、ファイルに保存したメタデータを読み込むようにした
これでクロールを途中から再開できる
現時点では全メタデータを読み込む
メタデータの増加に合わせて、処理時間と消費メモリーが線形に増加する想定だ
こいつが膨大なデータを集めるまえに、よりかしこい処理方式を実装しなければならない

ページメタ情報の容量

クロールを途中から再開できるようにしたデライトでクローラーを回すデライトの生HTMLファイル容量ページのメタ情報だけを保存メタ情報全輪郭の表題推定容量クローラー