表題の平均文字数 = 平均10文字適度?
表題の容量 = 10*3byte = 30byte
輪郭数: 2,600,000
全輪郭の表題の容量 = 30*2600000byte = 78000000byte = 74.3865966796875MB
2020/9/20 14:28:00
ページメタ情報の容量
2023/11/23 9:20:00
=
15.718837606837608[KB]
=
0.015350427350427352[MB]
=
8.98 / 585 [MB]
関連するURLのリストを持つと、やはり容量が大きくなる
数だけ持つべきかもしれない
ページランクを無視するならURLは残さなくてもいい
野良クローラの推定容量
2023/11/23 9:19:00
=
156.6405989165999[TB]
=
168191562393.1624[KB]
=
15.718837606837608 * 10700000000 [KB]
=
ページメタ情報の容量 * クローラで得られるページ数
クローラで得られるページ数
2020/9/21 15:10:00
デライトの生HTMLファイル容量
2020/9/21 14:20:00
27.23404255319149KB
0.026595744680851064 MB
10/376 MB
376ファイルで、10MB程度になった
想定よりも容量が大きい
2,600,000ファイルなら、69148MB=69GB
生のHTMLを保存しているから大きいのだろう
クローラを野に放つなら、生のHTMLではなくインデックスを保存したほうが良さそうだ
ひとまずネットワーク容量と、保存容量の限界まで回してみる
→プロバイダから怒られるかもと思ったが、ゲームのダウンロードに比べれば、かわいい物だな
ページのメタ情報だけを保存
2020/9/21 14:15:00
doc_meta_info:
filename: ページのURLのsha256
dest: ページが持つURLのリスト
src: ページを指し示すURLのリスト
tokens: ページ内の単語
udpate: メタ情報の作成時刻(timestamp[ms])
メタ情報
2020/9/21 14:14:00
Windows停止する
2020/9/20 17:02:00
突然動かなくなる
puppeteerと相性が悪いらしい
Dockerなり、WSL2なりでWindowsと隔離して動かしたほうが良さそうだ
puppeteer途中で止まる
2020/9/20 14:33:00
ページ取得に30秒以上かかると止まるらしい
try, exceptで囲うと良さそう
野良クローラの推定容量ページメタ情報の容量検索エンジンデライトでクローラーを回すクローラで得られるページ数デライトの生HTMLファイル容量ページのメタ情報だけを保存メタ情報全輪郭の表題推定容量クローラー
入門自作検索エンジン
2020/9/21 19:14:00
桁数を一個減らしたい
2020/9/21 15:20:00
🟩メタデータを圧縮する
- 7zip?
- gzip?
- AutoEncoder?
- Jsonをやめる?
🟩URLを無くす