doc_meta_info:
filename: ページのURLのsha256
dest: ページが持つURLのリスト
src: ページを指し示すURLのリスト
tokens: ページ内の単語
udpate: メタ情報の作成時刻(timestamp[ms])
ページのメタ情報だけを保存
2020/9/21 14:15:00
doc_meta_info:
filename: ページのURLのsha256
dest: ページが持つURLのリスト
src: ページを指し示すURLのリスト
tokens: ページ内の単語
udpate: メタ情報の作成時刻(timestamp[ms])
=
15.718837606837608[KB]
=
0.015350427350427352[MB]
=
8.98 / 585 [MB]
関連するURLのリストを持つと、やはり容量が大きくなる
数だけ持つべきかもしれない
ページランクを無視するならURLは残さなくてもいい
=
156.6405989165999[TB]
=
168191562393.1624[KB]
=
15.718837606837608 * 10700000000 [KB]
=
ページメタ情報の容量 * クローラで得られるページ数
🟩メタデータを圧縮する
🟩URLを無くす