t_wの輪郭

Feedlyでフォローするボタン

=15.718837606837608[KB]
=0.015350427350427352[MB]
=8.98 / 585 [MB]
 
関連するURLのリストを持つと、やはり容量が大きくなる
数だけ持つべきかもしれない
 
ページランクを無視するならURLは残さなくてもいい

デライトクローラの再開時に、ファイルに保存したメタデータを読み込むようにした
これでクロールを途中から再開できる
現時点では全メタデータを読み込む
メタデータの増加に合わせて、処理時間と消費メモリーが線形に増加する想定だ
こいつが膨大なデータを集めるまえに、よりかしこい処理方式を実装しなければならない

検索エンジンをブラウザエクステンションで実装するアイデア全輪郭の表題推定容量puppeteer途中で止まるpuppeteerWSL2WSL2のalpine上でpuppeteerが動かないdockerだとpuppeteerがいい感じに動いているあれWindows停止する実現性検証メタ情報ページのメタ情報だけを保存デライトの生HTMLファイル容量JSON.stringifyに大きいオブジェクトを渡すと、JSONに変換してくれないクローラで得られるページ数桁数を一個減らしたい入門自作検索エンジン一部機能をNode.jsからD言語に移行する『大規模なデータをJSON.stringifyとBlobを使って保存しようとしたら,ブラウザがエラーを出すときの対処法』野良クローラの推定容量ページメタ情報の容量デライトクローラクロールを途中から再開できるようにしたあれデライト外部検索通類をデプロイしたpuppeteerでクロールする様子デライト外部検索通類デライト外部検索通類 構成概要図

27.23404255319149KB

0.026595744680851064 MB

10/376 MB


376ファイルで、10MB程度になった
想定よりも容量が大きい
2,600,000ファイルなら、69148MB=69GB
 
生のHTMLを保存しているから大きいのだろう
クローラを野に放つなら、生のHTMLではなくインデックスを保存したほうが良さそうだ

ひとまずネットワーク容量と、保存容量の限界まで回してみる
→プロバイダから怒られるかもと思ったが、ゲームのダウンロードに比べれば、かわいい物だな