全輪郭の表題推定容量

2020/9/20 14:28:00

表題の平均文字数 = 平均10文字適度？
表題の容量 = 10*3byte = 30byte
輪郭数: 2,600,000
全輪郭の表題の容量 = 30*2600000byte = 78000000byte = 74.3865966796875MB

puppeteer途中で止まるあれ WSL2 WSL2のalpine上でpuppeteerが動かない dockerだとpuppeteerがいい感じに動いているあれ Windows停止するメタ情報ページのメタ情報だけを保存ページメタ情報の容量デライトの生HTMLファイル容量クローラで得られるページ数桁数を一個減らしたい入門自作検索エンジン野良クローラの推定容量

クロールを途中から再開できるようにしたデライトでクローラーを回すデライトの生HTMLファイル容量ページのメタ情報だけを保存メタ情報全輪郭の表題推定容量クローラー

ページメタ情報の容量

2023/11/23 9:20:00

=15.718837606837608[KB]
=0.015350427350427352[MB]
=8.98 / 585 [MB]
　
関連するURLのリストを持つと、やはり容量が大きくなる
数だけ持つべきかもしれない
　
ページランクを無視するならURLは残さなくてもいい

デライトの生HTMLファイル容量クローラで得られるページ数桁数を一個減らしたい入門自作検索エンジン野良クローラの推定容量デライトでクローラーを回すデライトクローラクロールを途中から再開できるようにした

デライトでクローラーを回すページメタ情報の容量クローラで得られるページ数デライトの生HTMLファイル容量ページのメタ情報だけを保存メタ情報全輪郭の表題推定容量クローラー

野良クローラの推定容量

2023/11/23 9:19:00

= 156.6405989165999[TB]
= 168191562393.1624[KB]
= 15.718837606837608 * 10700000000 [KB]
= ページメタ情報の容量 * クローラで得られるページ数

クローラで得られるページ数桁数を一個減らしたい入門自作検索エンジン

野良クローラの推定容量ページメタ情報の容量デライトでクローラーを回すデライトの生HTMLファイル容量ページのメタ情報だけを保存メタ情報全輪郭の表題推定容量クローラー

クローラで得られるページ数

2020/9/21 15:10:00

107億ページ
ref: https://www.ieice.org/iss/de/DEWS/DEWS2008/proceedings/files/a2/a2-3.pdf

桁数を一個減らしたい入門自作検索エンジン野良クローラの推定容量

ページメタ情報の容量デライトでクローラーを回す全輪郭の表題推定容量

デライトの生HTMLファイル容量

2020/9/21 14:20:00

27.23404255319149KB

0.026595744680851064 MB

10/376 MB

376ファイルで、10MB程度になった
想定よりも容量が大きい
2,600,000ファイルなら、69148MB＝69GB
　
生のHTMLを保存しているから大きいのだろう
クローラを野に放つなら、生のHTMLではなくインデックスを保存したほうが良さそうだ

ひとまずネットワーク容量と、保存容量の限界まで回してみる
→プロバイダから怒られるかもと思ったが、ゲームのダウンロードに比べれば、かわいい物だな

全輪郭の表題推定容量 puppeteer途中で止まるあれ WSL2 WSL2のalpine上でpuppeteerが動かない dockerだとpuppeteerがいい感じに動いているあれ Windows停止するメタ情報ページのメタ情報だけを保存ページメタ情報の容量クローラで得られるページ数桁数を一個減らしたい入門自作検索エンジン野良クローラの推定容量デライトでクローラーを回すデライトクローラクロールを途中から再開できるようにしたあれデライト外部検索通類をデプロイしたデライト外部検索通類

デライトでクローラーを回すデライトの生HTMLファイル容量メタ情報全輪郭の表題推定容量

ページのメタ情報だけを保存

2020/9/21 14:15:00

doc_meta_info:
filename: ページのURLのsha256
dest: ページが持つURLのリスト
src: ページを指し示すURLのリスト
tokens: ページ内の単語
udpate: メタ情報の作成時刻（timestamp[ms]）

メタ情報ページメタ情報の容量クローラで得られるページ数桁数を一個減らしたい入門自作検索エンジン野良クローラの推定容量

ページのメタ情報だけを保存メタ情報デライトでクローラーを回すデライトの生HTMLファイル容量全輪郭の表題推定容量

メタ情報

2020/9/21 14:14:00

ページのメタ情報だけを保存ページメタ情報の容量クローラで得られるページ数桁数を一個減らしたい入門自作検索エンジン野良クローラの推定容量

Docker デライトでクローラーを回すデライトの生HTMLファイル容量 WSL2 puppeteer途中で止まるあれ全輪郭の表題推定容量 puppeteer

Windows停止する

2020/9/20 17:02:00

突然動かなくなる
puppeteerと相性が悪いらしい
Dockerなり~~、WSL2なり~~でWindowsと隔離して動かしたほうが良さそうだ

puppeteer WSL2 WSL2のalpine上でpuppeteerが動かない dockerだとpuppeteerがいい感じに動いているあれ puppeteerでクロールする様子

あれデライトでクローラーを回すデライトの生HTMLファイル容量全輪郭の表題推定容量

puppeteer途中で止まる

2020/9/20 14:33:00

ページ取得に30秒以上かかると止まるらしい
try, exceptで囲うと良さそう

puppeteer WSL2 WSL2のalpine上でpuppeteerが動かない dockerだとpuppeteerがいい感じに動いているあれ Windows停止する puppeteerでクロールする様子

野良クローラの推定容量ページメタ情報の容量検索エンジンデライトでクローラーを回すクローラで得られるページ数デライトの生HTMLファイル容量ページのメタ情報だけを保存メタ情報全輪郭の表題推定容量クローラー

入門自作検索エンジン

2020/9/21 19:14:00

検索エンジンの作り方についてのスライド
https://speakerdeck.com/ryook/the-first-step-self-made-full-text-search

野良クローラの推定容量ページメタ情報の容量デライトでクローラーを回すクローラで得られるページ数デライトの生HTMLファイル容量ページのメタ情報だけを保存メタ情報全輪郭の表題推定容量クローラー

桁数を一個減らしたい

2020/9/21 15:20:00

🟩メタデータを圧縮する

7zip?
gzip?
AutoEncoder？
Jsonをやめる？

🟩URLを無くす