t_wの輪郭

RSS

クロールを途中から再開できるようにしたデライトでクローラーを回すデライトの生HTMLファイル容量ページのメタ情報だけを保存メタ情報全輪郭の表題推定容量クローラー

ページメタ情報の容量

2023/11/23 9:20:00

=15.718837606837608[KB]
=0.015350427350427352[MB]
=8.98 / 585 [MB]
　
関連するURLのリストを持つと、やはり容量が大きくなる
数だけ持つべきかもしれない
　
ページランクを無視するならURLは残さなくてもいい

デライトの生HTMLファイル容量クローラで得られるページ数桁数を一個減らしたい入門自作検索エンジン野良クローラの推定容量デライトでクローラーを回すデライトクローラクロールを途中から再開できるようにした

デライト外部検索通類をデプロイしたページメタ情報の容量デライトをクロール Node.js 検索エンジンデライトでクローラーを回すデライトの生HTMLファイル容量 2020年9月20日デライトあれデライト外部検索通類クローラー

デライトクローラ

2020/9/22 9:54:00

デライトでクローラーを回す dlt_crawler.js クロールを途中から再開できるようにしたあれデライト外部検索通類をデプロイしたデライト外部検索通類のグローバルIP変更 Elastic IP

ページメタ情報の容量 Node.js 検索エンジンデライトクローラデライトでクローラーを回すデライトの生HTMLファイル容量 puppeteer 実現性検証 2020年9月20日デライト外部検索通類クローラー

クロールを途中から再開できるようにした

2020/9/22 9:57:00

デライトクローラの再開時に、ファイルに保存したメタデータを読み込むようにした
これでクロールを途中から再開できる
現時点では全メタデータを読み込む
メタデータの増加に合わせて、処理時間と消費メモリーが線形に増加する想定だ
こいつが膨大なデータを集めるまえに、よりかしこい処理方式を実装しなければならない

ページメタ情報の容量

デライトクローラページメタ情報の容量 Node.js デライトの生HTMLファイル容量 puppeteer 実現性検証 2020年9月20日デライト外部検索通類クローラー

デライトでクローラーを回す

2020/9/21 23:17:00

デライトから可能な限りデータを取ってきてみる
目的

デライトの外部検索通類の実現性検証
クローラー作成の学習

現在は1アクセス毎に1秒の遅延を入れる
　
クローラーはNode.jsのpuppeteerを使って作成

検索エンジンをブラウザエクステンションで実装するアイデア全輪郭の表題推定容量 puppeteer途中で止まる puppeteer WSL2 WSL2のalpine上でpuppeteerが動かない dockerだとpuppeteerがいい感じに動いているあれ Windows停止する実現性検証メタ情報ページのメタ情報だけを保存デライトの生HTMLファイル容量 JSON.stringifyに大きいオブジェクトを渡すと、JSONに変換してくれないクローラで得られるページ数桁数を一個減らしたい入門自作検索エンジン一部機能をNode.jsからD言語に移行する『大規模なデータをJSON.stringifyとBlobを使って保存しようとしたら,ブラウザがエラーを出すときの対処法』野良クローラの推定容量ページメタ情報の容量デライトクローラクロールを途中から再開できるようにしたあれデライト外部検索通類をデプロイした puppeteerでクロールする様子デライト外部検索通類デライト外部検索通類構成概要図

デライトでクローラーを回すページメタ情報の容量クローラで得られるページ数デライトの生HTMLファイル容量ページのメタ情報だけを保存メタ情報全輪郭の表題推定容量クローラー

野良クローラの推定容量

2023/11/23 9:19:00

= 156.6405989165999[TB]
= 168191562393.1624[KB]
= 15.718837606837608 * 10700000000 [KB]
= ページメタ情報の容量 * クローラで得られるページ数

クローラで得られるページ数桁数を一個減らしたい入門自作検索エンジン

野良クローラの推定容量ページメタ情報の容量デライトでクローラーを回すデライトの生HTMLファイル容量ページのメタ情報だけを保存メタ情報全輪郭の表題推定容量クローラー

クローラで得られるページ数

2020/9/21 15:10:00

107億ページ
ref: https://www.ieice.org/iss/de/DEWS/DEWS2008/proceedings/files/a2/a2-3.pdf

桁数を一個減らしたい入門自作検索エンジン野良クローラの推定容量

ページメタ情報の容量デライトでクローラーを回す全輪郭の表題推定容量

デライトの生HTMLファイル容量

2020/9/21 14:20:00

27.23404255319149KB

0.026595744680851064 MB

10/376 MB

376ファイルで、10MB程度になった
想定よりも容量が大きい
2,600,000ファイルなら、69148MB＝69GB
　
生のHTMLを保存しているから大きいのだろう
クローラを野に放つなら、生のHTMLではなくインデックスを保存したほうが良さそうだ

ひとまずネットワーク容量と、保存容量の限界まで回してみる
→プロバイダから怒られるかもと思ったが、ゲームのダウンロードに比べれば、かわいい物だな

全輪郭の表題推定容量 puppeteer途中で止まるあれ WSL2 WSL2のalpine上でpuppeteerが動かない dockerだとpuppeteerがいい感じに動いているあれ Windows停止するメタ情報ページのメタ情報だけを保存ページメタ情報の容量クローラで得られるページ数桁数を一個減らしたい入門自作検索エンジン野良クローラの推定容量デライトでクローラーを回すデライトクローラクロールを途中から再開できるようにしたあれデライト外部検索通類をデプロイしたデライト外部検索通類

野良クローラの推定容量ページメタ情報の容量検索エンジンデライトでクローラーを回すクローラで得られるページ数デライトの生HTMLファイル容量ページのメタ情報だけを保存メタ情報全輪郭の表題推定容量クローラー

入門自作検索エンジン

2020/9/21 19:14:00

検索エンジンの作り方についてのスライド
https://speakerdeck.com/ryook/the-first-step-self-made-full-text-search

野良クローラの推定容量ページメタ情報の容量デライトでクローラーを回すクローラで得られるページ数デライトの生HTMLファイル容量ページのメタ情報だけを保存メタ情報全輪郭の表題推定容量クローラー

桁数を一個減らしたい

2020/9/21 15:20:00

🟩メタデータを圧縮する

7zip?
gzip?
AutoEncoder？
Jsonをやめる？

🟩URLを無くす