t_wの輪郭

1秒未満で検索が完了する
10個までしか検索結果が表示されない
- ページャー未実装
検索結果に重複がある
- 重複を削除する処理が未実装
見た目が悪い
- CSS未実装
  - node.jsで直接HTMLを吐き出しているため、複雑なフロントエンドを作るのは手間がかかる
    - テンプレートエンジンなどに乗り換えたい
検索結果の並びがクロールされた順番になっている
- ページランクで並び変える機能が未実装

デライトクローラ Elastic IP デライト外部検索通類のグローバルIP変更

Node.js puppeteer 検索エンジンクローラー 2020年9月20日デライトクローラデライト外部検索通類デライトでクローラーを回すデライトの生HTMLファイル容量実現性検証

あれ

2020/9/24 23:41:00

コマンドラインからデライトを検索できるところまでは来た
検索が一瞬で終わる
連想配列から単語をキーとしてURLを取ってくるだけなので早い
ただ、検索結果にURLしか表示されない
デライトクローラをメタデータだけでなくページ内の内容も保存するように改変する

あれ

Node.js puppeteer 検索エンジンクローラー 2020年9月20日デライトクローラデライト外部検索通類デライトでクローラーを回すデライトの生HTMLファイル容量実現性検証ページメタ情報の容量

クロールを途中から再開できるようにした

2020/9/22 9:57:00

デライトクローラの再開時に、ファイルに保存したメタデータを読み込むようにした
これでクロールを途中から再開できる
現時点では全メタデータを読み込む
メタデータの増加に合わせて、処理時間と消費メモリーが線形に増加する想定だ
こいつが膨大なデータを集めるまえに、よりかしこい処理方式を実装しなければならない

ページメタ情報の容量

Node.js 検索エンジンクローラー 2020年9月20日デライト外部検索通類をデプロイしたデライト外部検索通類デライトでクローラーを回すデライトの生HTMLファイル容量ページメタ情報の容量デライトをクロールデライトあれ

デライトクローラ

2020/9/22 9:54:00

デライト外部検索通類をデプロイしたあれクロールを途中から再開できるようにしたデライトでクローラーを回す Elastic IP デライト外部検索通類のグローバルIP変更 dlt_crawler.js

Node.js puppeteer 検索エンジンシステム構成図クローラー 2020年9月20日 miro デライト外部検索通類デライトでクローラーを回す実現性検証構成図

デライト外部検索通類構成概要図

2020/9/21 23:24:00

https://miro.com/app/board/o9J_kkgCSSo=/

あれ

Node.js puppeteer クローラー検索 2020年9月20日デライトでクローラーを回すデライトの生HTMLファイル容量実現性検証

デライト外部検索通類

2020/9/21 23:17:00

デライト外部検索通類をデプロイしたあれクロールを途中から再開できるようにしたデライトクローラデライト外部検索通類構成概要図デライトでクローラーを回す Elastic IP デライト外部検索通類のグローバルIP変更あれ

Node.js JavaScript デライトでクローラーを回す JSON JSON.stringifyに大きいオブジェクトを渡すと、JSONに変換してくれない JSON.stringify

『大規模なデータをJSON.stringifyとBlobを使って保存しようとしたら,ブラウザがエラーを出すときの対処法』

2020/9/21 22:09:00

『大規模なデータをJSON.stringifyとBlobを使って保存しようとしたら,ブラウザがエラーを出すときの対処法』
https://qiita.com/Toyoharu-Nishikawa/items/dfb187cf6eb4ba743995

JSON.stringifyに大きいオブジェクトを渡すと、JSONに変換してくれない

Node.js Python デライトでクローラーを回す JSON JSON.stringifyに大きいオブジェクトを渡すと、JSONに変換してくれない JSON.stringify D言語

一部機能をNode.jsからD言語に移行する

2020/9/21 21:58:00

JSON.stringifyに大きいオブジェクトを渡すと、JSONに変換してくれないのでD言語に避難
副次的効果として高速化も期待できる
D言語でも同じ問題が起きないことを祈る
D言語でもダメなら、次はPythonを試す

あれ

Node.js デライトでクローラーを回す『大規模なデータをJSON.stringifyとBlobを使って保存しようとしたら,ブラウザがエラーを出すときの対処法』JSON.stringify

JSON.stringifyに大きいオブジェクトを渡すと、JSONに変換してくれない

2020/9/21 21:42:00

Node.jsでは、{}が出力される

『大規模なデータをJSON.stringifyとBlobを使って保存しようとしたら,ブラウザがエラーを出すときの対処法』一部機能をNode.jsからD言語に移行する

検索エンジンクローラーデライトでクローラーを回すデライトの生HTMLファイル容量ページメタ情報の容量野良クローラの推定容量クローラで得られるページ数ページのメタ情報だけを保存メタ情報全輪郭の表題推定容量

入門自作検索エンジン

2020/9/21 19:14:00

検索エンジンの作り方についてのスライド
https://speakerdeck.com/ryook/the-first-step-self-made-full-text-search

あれ

puppeteer クローラー 2020年9月20日デライトでクローラーを回す Windows停止する puppeteer途中で止まる

あれ

クローラーデライトでクローラーを回すデライトの生HTMLファイル容量ページメタ情報の容量野良クローラの推定容量クローラで得られるページ数ページのメタ情報だけを保存メタ情報全輪郭の表題推定容量

桁数を一個減らしたい

2020/9/21 15:20:00

🟩メタデータを圧縮する

7zip?
gzip?
AutoEncoder？
Jsonをやめる？

🟩URLを無くす

あれ

クローラーデライトでクローラーを回すデライトの生HTMLファイル容量ページメタ情報の容量野良クローラの推定容量ページのメタ情報だけを保存メタ情報全輪郭の表題推定容量

クローラで得られるページ数

2020/9/21 15:10:00

107億ページ
ref: https://www.ieice.org/iss/de/DEWS/DEWS2008/proceedings/files/a2/a2-3.pdf

野良クローラの推定容量入門自作検索エンジン桁数を一個減らしたい

クローラー Web Prowler デライトでクローラーを回すウェブエクステンション閲覧履歴閲覧履歴起点の検索エンジン古き良きインターネットを作るアイデア検索エンジン関連の特許に注意

検索エンジンをブラウザエクステンションで実装するアイデア

2020/9/21 14:58:00

ブラウザの閲覧履歴を元にウェブをクロールする
検索実施時にクロール結果から検索する
クローラーはブラウザエクステンションで常駐させる

ウェブエクステンション閲覧履歴閲覧履歴起点の検索エンジン古き良きインターネットを作るアイデア検索エンジン関連の特許に注意

デライトでクローラーを回すページメタ情報の容量全輪郭の表題推定容量

デライトの生HTMLファイル容量

2020/9/21 14:20:00

27.23404255319149KB

0.026595744680851064 MB

10/376 MB

376ファイルで、10MB程度になった
想定よりも容量が大きい
2,600,000ファイルなら、69148MB＝69GB
　
生のHTMLを保存しているから大きいのだろう
クローラを野に放つなら、生のHTMLではなくインデックスを保存したほうが良さそうだ

ひとまずネットワーク容量と、保存容量の限界まで回してみる
→プロバイダから怒られるかもと思ったが、ゲームのダウンロードに比べれば、かわいい物だな

デライト外部検索通類をデプロイしたあれクロールを途中から再開できるようにしたデライトクローラデライト外部検索通類デライトでクローラーを回す Windows停止する puppeteer途中で止まるページメタ情報の容量野良クローラの推定容量クローラで得られるページ数ページのメタ情報だけを保存メタ情報入門自作検索エンジン桁数を一個減らしたい全輪郭の表題推定容量 WSL2 あれあれ dockerだとpuppeteerがいい感じに動いている WSL2のalpine上でpuppeteerが動かない

デライトでクローラーを回すデライトの生HTMLファイル容量メタ情報全輪郭の表題推定容量

ページのメタ情報だけを保存

2020/9/21 14:15:00

doc_meta_info:
filename: ページのURLのsha256
dest: ページが持つURLのリスト
src: ページを指し示すURLのリスト
tokens: ページ内の単語
udpate: メタ情報の作成時刻（timestamp[ms]）

ページメタ情報の容量野良クローラの推定容量クローラで得られるページ数メタ情報入門自作検索エンジン桁数を一個減らしたい

メタ情報デライトでクローラーを回すデライトの生HTMLファイル容量ページのメタ情報だけを保存全輪郭の表題推定容量

メタ情報

2020/9/21 14:14:00

ページメタ情報の容量野良クローラの推定容量クローラで得られるページ数ページのメタ情報だけを保存入門自作検索エンジン桁数を一個減らしたい

クローラー Chrome デライトでクローラーを回す Windows停止する puppeteer途中で止まるデライトの生HTMLファイル容量全輪郭の表題推定容量 WSL2 あれ dockerだとpuppeteerがいい感じに動いている

あれ

2020/9/20 23:50:00

WSL2を動かしっぱなしにするとメモリーを食いつぶすらしい
クローラーのプログラムは関係なかった
クローラーのメモリー消費を試算したら、高々400MB程度で済む

あれ

puppeteer Chrome デライトでクローラーを回す Windows停止する puppeteer途中で止まるデライトの生HTMLファイル容量全輪郭の表題推定容量 WSL2 あれ

dockerだとpuppeteerがいい感じに動いている

2020/9/20 23:26:00

dockerだとpuppeteerがいい感じに動いている
プログラムの作りが悪いので、メモリー食いつぶしているが、この状態でも動き続けている

あれ

Docker puppeteer デライトでクローラーを回す puppeteer途中で止まるデライトの生HTMLファイル容量全輪郭の表題推定容量 WSL2 あれ

Windows停止する

2020/9/20 17:02:00

突然動かなくなる
puppeteerと相性が悪いらしい
Dockerなり~~、WSL2なり~~でWindowsと隔離して動かしたほうが良さそうだ

puppeteer puppeteerでクロールする様子 WSL2 あれ dockerだとpuppeteerがいい感じに動いている WSL2のalpine上でpuppeteerが動かない

デライトでクローラーを回す Windows停止する puppeteer途中で止まるデライトの生HTMLファイル容量全輪郭の表題推定容量あれ

WSL2のalpine上でpuppeteerが動かない

2020/9/20 15:05:00

エラーコード:
DESKTOP-A0TO8ET:/mnt/d/google drive/work/Delite-Clowler$ node main.js
(node:14699) UnhandledPromiseRejectionWarning: Error: Failed to launch the browser process! spawn /mnt/d/google drive/work/Delite-Clowler/node_modules/puppeteer/.local-chromium/linux-800071/chrome-linux/chrome ENOENT

TROUBLESHOOTING: https://github.com/puppeteer/puppeteer/blob/main/docs/troubleshooting.md

at onClose (/mnt/d/google drive/work/Delite-Clowler/node_modules/puppeteer/lib/cjs/puppeteer/node/BrowserRunner.js:193:20)
at ChildProcess.<anonymous> (/mnt/d/google drive/work/Delite-Clowler/node_modules/puppeteer/lib/cjs/puppeteer/node/BrowserRunner.js:185:85)
at ChildProcess.emit (events.js:223:5)
at Process.ChildProcess._handle.onexit (internal/child_process.js:270:12)
at onErrorNT (internal/child_process.js:456:16)
at processTicksAndRejections (internal/process/task_queues.js:81:21)
(node:14699) UnhandledPromiseRejectionWarning: Unhandled promise rejection. This error originated either by throwing inside of an async function without a catch block, or by rejecting a promise which was not handled with .catch(). (rejection id: 1)
(node:14699) [DEP0018] DeprecationWarning: Unhandled promise rejections are deprecated. In the future, promise rejections that are not handled will terminate the Node.js process with a non-zero exit code.

あれ

デライトでクローラーを回す Windows停止する puppeteer途中で止まるデライトの生HTMLファイル容量全輪郭の表題推定容量あれ