t_wの輪郭

表題の平均文字数 = 平均10文字適度?
表題の容量 = 10*3byte = 30byte
輪郭数: 2,600,000
全輪郭の表題の容量 = 30*2600000byte = 78000000byte = 74.3865966796875MB

27.23404255319149KB

0.026595744680851064 MB

10/376 MB


376ファイルで、10MB程度になった
想定よりも容量が大きい
2,600,000ファイルなら、69148MB=69GB
 
生のHTMLを保存しているから大きいのだろう
クローラを野に放つなら、生のHTMLではなくインデックスを保存したほうが良さそうだ

ひとまずネットワーク容量と、保存容量の限界まで回してみる
→プロバイダから怒られるかもと思ったが、ゲームのダウンロードに比べれば、かわいい物だな

doc_meta_info:
 filename: ページのURLのsha256
 dest: ページが持つURLのリスト
 src: ページを指し示すURLのリスト
 tokens: ページ内の単語
 udpate: メタ情報の作成時刻(timestamp[ms])

Windows停止する

2020/9/20 17:02:00

突然動かなくなる
puppeteerと相性が悪いらしい
Dockerなり、WSL2なりでWindowsと隔離して動かしたほうが良さそうだ

puppeteer途中で止まる

2020/9/20 14:33:00

ページ取得に30秒以上かかると止まるらしい
try, exceptで囲うと良さそう

=15.718837606837608[KB]
=0.015350427350427352[MB]
=8.98 / 585 [MB]
 
関連するURLのリストを持つと、やはり容量が大きくなる
数だけ持つべきかもしれない
 
ページランクを無視するならURLは残さなくてもいい