t_wの輪郭

RSS

クローラークロールを途中から再開できるようにしたデライトでクローラーを回すデライトの生HTMLファイル容量ページのメタ情報だけを保存メタ情報全輪郭の表題推定容量

ページメタ情報の容量

2023/11/23 9:20:00

=15.718837606837608[KB]
=0.015350427350427352[MB]
=8.98 / 585 [MB]
　
関連するURLのリストを持つと、やはり容量が大きくなる
数だけ持つべきかもしれない
　
ページランクを無視するならURLは残さなくてもいい

クロールを途中から再開できるようにしたデライトクローラデライトでクローラーを回すデライトの生HTMLファイル容量野良クローラの推定容量クローラで得られるページ数入門自作検索エンジン桁数を一個減らしたい

クローラーデライトでクローラーを回すデライトの生HTMLファイル容量ページメタ情報の容量クローラで得られるページ数ページのメタ情報だけを保存メタ情報全輪郭の表題推定容量

野良クローラの推定容量

2023/11/23 9:19:00

= 156.6405989165999[TB]
= 168191562393.1624[KB]
= 15.718837606837608 * 10700000000 [KB]
= ページメタ情報の容量 * クローラで得られるページ数

クローラで得られるページ数入門自作検索エンジン桁数を一個減らしたい

Node.js puppeteer 検索エンジンクローラー 2020年9月20日デライトクローラデライト外部検索通類デライトでクローラーを回すデライトの生HTMLファイル容量実現性検証ページメタ情報の容量

クロールを途中から再開できるようにした

2020/9/22 9:57:00

デライトクローラの再開時に、ファイルに保存したメタデータを読み込むようにした
これでクロールを途中から再開できる
現時点では全メタデータを読み込む
メタデータの増加に合わせて、処理時間と消費メモリーが線形に増加する想定だ
こいつが膨大なデータを集めるまえに、よりかしこい処理方式を実装しなければならない

ページメタ情報の容量

Node.js 検索エンジンクローラー 2020年9月20日デライト外部検索通類をデプロイしたデライト外部検索通類デライトでクローラーを回すデライトの生HTMLファイル容量ページメタ情報の容量デライトをクロールデライトあれ

デライトクローラ

2020/9/22 9:54:00

デライト外部検索通類をデプロイしたあれクロールを途中から再開できるようにしたデライトでクローラーを回す Elastic IP デライト外部検索通類のグローバルIP変更 dlt_crawler.js

Node.js puppeteer クローラー 2020年9月20日デライトクローラデライト外部検索通類デライトの生HTMLファイル容量実現性検証ページメタ情報の容量

デライトでクローラーを回す

2020/9/21 23:17:00

デライトから可能な限りデータを取ってきてみる
目的

デライトの外部検索通類の実現性検証
クローラー作成の学習

現在は1アクセス毎に1秒の遅延を入れる
　
クローラーはNode.jsのpuppeteerを使って作成

puppeteer デライト外部検索通類をデプロイしたあれクロールを途中から再開できるようにしたデライトクローラデライト外部検索通類構成概要図デライト外部検索通類 puppeteerでクロールする様子 Windows停止する puppeteer途中で止まるデライトの生HTMLファイル容量実現性検証ページメタ情報の容量野良クローラの推定容量『大規模なデータをJSON.stringifyとBlobを使って保存しようとしたら,ブラウザがエラー...一部機能をNode.jsからD言語に移行するクローラで得られるページ数ページのメタ情報だけを保存メタ情報入門自作検索エンジン桁数を一個減らしたい JSON.stringifyに大きいオブジェクトを渡すと、JSONに変換してくれない全輪郭の表題推定容量 WSL2 あれ dockerだとpuppeteerがいい感じに動いている WSL2のalpine上でpuppeteerが動かない検索エンジンをブラウザエクステンションで実装するアイデア

検索エンジンクローラーデライトでクローラーを回すデライトの生HTMLファイル容量ページメタ情報の容量野良クローラの推定容量クローラで得られるページ数ページのメタ情報だけを保存メタ情報全輪郭の表題推定容量

入門自作検索エンジン

2020/9/21 19:14:00

検索エンジンの作り方についてのスライド
https://speakerdeck.com/ryook/the-first-step-self-made-full-text-search

クローラーデライトでクローラーを回すデライトの生HTMLファイル容量ページメタ情報の容量野良クローラの推定容量クローラで得られるページ数ページのメタ情報だけを保存メタ情報全輪郭の表題推定容量

桁数を一個減らしたい

2020/9/21 15:20:00

🟩メタデータを圧縮する

7zip?
gzip?
AutoEncoder？
Jsonをやめる？

🟩URLを無くす

クローラーデライトでクローラーを回すデライトの生HTMLファイル容量ページメタ情報の容量野良クローラの推定容量ページのメタ情報だけを保存メタ情報全輪郭の表題推定容量

クローラで得られるページ数

2020/9/21 15:10:00

107億ページ
ref: https://www.ieice.org/iss/de/DEWS/DEWS2008/proceedings/files/a2/a2-3.pdf

野良クローラの推定容量入門自作検索エンジン桁数を一個減らしたい

デライトでクローラーを回すページメタ情報の容量全輪郭の表題推定容量

デライトの生HTMLファイル容量

2020/9/21 14:20:00

27.23404255319149KB

0.026595744680851064 MB

10/376 MB

376ファイルで、10MB程度になった
想定よりも容量が大きい
2,600,000ファイルなら、69148MB＝69GB
　
生のHTMLを保存しているから大きいのだろう
クローラを野に放つなら、生のHTMLではなくインデックスを保存したほうが良さそうだ

ひとまずネットワーク容量と、保存容量の限界まで回してみる
→プロバイダから怒られるかもと思ったが、ゲームのダウンロードに比べれば、かわいい物だな

デライト外部検索通類をデプロイしたあれクロールを途中から再開できるようにしたデライトクローラデライト外部検索通類デライトでクローラーを回す Windows停止する puppeteer途中で止まるページメタ情報の容量野良クローラの推定容量クローラで得られるページ数ページのメタ情報だけを保存メタ情報入門自作検索エンジン桁数を一個減らしたい全輪郭の表題推定容量 WSL2 あれあれ dockerだとpuppeteerがいい感じに動いている WSL2のalpine上でpuppeteerが動かない