t_wの輪郭

Feedlyでフォローするボタン

27.23404255319149KB

0.026595744680851064 MB

10/376 MB


376ファイルで、10MB程度になった
想定よりも容量が大きい
2,600,000ファイルなら、69148MB=69GB
 
生のHTMLを保存しているから大きいのだろう
クローラを野に放つなら、生のHTMLではなくインデックスを保存したほうが良さそうだ

ひとまずネットワーク容量と、保存容量の限界まで回してみる
→プロバイダから怒られるかもと思ったが、ゲームのダウンロードに比べれば、かわいい物だな

デライト外部検索通類AWSデプロイした。↓のリンクから利用できる
http://ec2-52-193-108-6.ap-northeast-1.compute.amazonaws.com:8080/
 
デライトクローラが取得した1万9千の輪郭から検索できる

  • 1秒未満で検索が完了する
  • 10個までしか検索結果が表示されない
    • ページャー未実装
  • 検索結果に重複がある
    • 重複を削除する処理が未実装
  • 見た目が悪い
    • CSS未実装
      • node.jsで直接HTMLを吐き出しているため、複雑なフロントエンドを作るのは手間がかかる
        • テンプレートエンジンなどに乗り換えたい
  • 検索結果の並びがクロールされた順番になっている
    • ページランクで並び変える機能が未実装

デライトクローラの再開時に、ファイルに保存したメタデータを読み込むようにした
これでクロールを途中から再開できる
現時点では全メタデータを読み込む
メタデータの増加に合わせて、処理時間と消費メモリーが線形に増加する想定だ
こいつが膨大なデータを集めるまえに、よりかしこい処理方式を実装しなければならない

=15.718837606837608[KB]
=0.015350427350427352[MB]
=8.98 / 585 [MB]
 
関連するURLのリストを持つと、やはり容量が大きくなる
数だけ持つべきかもしれない
 
ページランクを無視するならURLは残さなくてもいい

検索エンジンをブラウザエクステンションで実装するアイデア全輪郭の表題推定容量puppeteer途中で止まるpuppeteerWSL2WSL2のalpine上でpuppeteerが動かないdockerだとpuppeteerがいい感じに動いているあれWindows停止する実現性検証メタ情報ページのメタ情報だけを保存デライトの生HTMLファイル容量JSON.stringifyに大きいオブジェクトを渡すと、JSONに変換してくれないクローラで得られるページ数桁数を一個減らしたい入門自作検索エンジン一部機能をNode.jsからD言語に移行する『大規模なデータをJSON.stringifyとBlobを使って保存しようとしたら,ブラウザがエラーを出すときの対処法』野良クローラの推定容量ページメタ情報の容量デライトクローラクロールを途中から再開できるようにしたあれデライト外部検索通類をデプロイしたpuppeteerでクロールする様子デライト外部検索通類デライト外部検索通類 構成概要図

Windows停止する

2020/9/20 17:02:00

突然動かなくなる
puppeteerと相性が悪いらしい
Dockerなり、WSL2なりでWindowsと隔離して動かしたほうが良さそうだ

puppeteer途中で止まる

2020/9/20 14:33:00

ページ取得に30秒以上かかると止まるらしい
try, exceptで囲うと良さそう

あれ

2020/9/24 23:41:00

コマンドラインからデライトを検索できるところまでは来た
検索が一瞬で終わる
連想配列から単語をキーとしてURLを取ってくるだけなので早い
ただ、検索結果にURLしか表示されない
デライトクローラをメタデータだけでなくページ内の内容も保存するように改変する