t_wの輪郭

Feedlyでフォローするボタン
デライトでクローラーを回すデライトの生HTMLファイル容量メタ情報全輪郭の表題推定容量

doc_meta_info:
 filename: ページのURLのsha256
 dest: ページが持つURLのリスト
 src: ページを指し示すURLのリスト
 tokens: ページ内の単語
 udpate: メタ情報の作成時刻(timestamp[ms])

ページメタ情報の容量野良クローラの推定容量クローラで得られるページ数メタ情報入門自作検索エンジン桁数を一個減らしたい

=15.718837606837608[KB]
=0.015350427350427352[MB]
=8.98 / 585 [MB]
 
関連するURLのリストを持つと、やはり容量が大きくなる
数だけ持つべきかもしれない
 
ページランクを無視するならURLは残さなくてもいい