t_wの輪郭

Feedlyでフォローするボタン
メタ情報デライトでクローラーを回すデライトの生HTMLファイル容量ページのメタ情報だけを保存全輪郭の表題推定容量
ページメタ情報の容量野良クローラの推定容量クローラで得られるページ数ページのメタ情報だけを保存入門自作検索エンジン桁数を一個減らしたい

=15.718837606837608[KB]
=0.015350427350427352[MB]
=8.98 / 585 [MB]
 
関連するURLのリストを持つと、やはり容量が大きくなる
数だけ持つべきかもしれない
 
ページランクを無視するならURLは残さなくてもいい

doc_meta_info:
 filename: ページのURLのsha256
 dest: ページが持つURLのリスト
 src: ページを指し示すURLのリスト
 tokens: ページ内の単語
 udpate: メタ情報の作成時刻(timestamp[ms])