t_wの輪郭

2020年9月20日デライトでクローラーを回す

実現性検証

2020/9/20 13:51:00

デライト外部検索通類をデプロイしたあれクロールを途中から再開できるようにしたデライト外部検索通類構成概要図デライト外部検索通類デライトでクローラーを回す Elastic IP デライト外部検索通類のグローバルIP変更

デライト外部検索通類をデプロイしたデライトクローラデライト外部検索通類実現性検証デライト外部検索通類のグローバルIP変更

Elastic IP

2020/10/3 8:21:00

あれ

デライト外部検索通類をデプロイしたデライトクローラデライト外部検索通類実現性検証

デライト外部検索通類のグローバルIP変更

2020/10/3 8:21:00

http://54.250.48.30:8080/
　
Elastic IPを設定した
気が向いたらドメインを取得して設定する

Elastic IP

Node.js puppeteer 検索エンジンクローラー 2020年9月20日デライトクローラデライト外部検索通類デライトでクローラーを回すデライトの生HTMLファイル容量実現性検証デプロイあれ

デライト外部検索通類をデプロイした

2020/9/28 0:41:00

デライト外部検索通類をAWSへデプロイした。↓のリンクから利用できる
http://ec2-52-193-108-6.ap-northeast-1.compute.amazonaws.com:8080/
　
デライトクローラが取得した1万9千の輪郭から検索できる

1秒未満で検索が完了する
10個までしか検索結果が表示されない
- ページャー未実装
検索結果に重複がある
- 重複を削除する処理が未実装
見た目が悪い
- CSS未実装
  - node.jsで直接HTMLを吐き出しているため、複雑なフロントエンドを作るのは手間がかかる
    - テンプレートエンジンなどに乗り換えたい
検索結果の並びがクロールされた順番になっている
- ページランクで並び変える機能が未実装

デライトクローラ Elastic IP デライト外部検索通類のグローバルIP変更

Node.js puppeteer 検索エンジンクローラー 2020年9月20日デライトクローラデライト外部検索通類デライトでクローラーを回すデライトの生HTMLファイル容量実現性検証

あれ

2020/9/24 23:41:00

コマンドラインからデライトを検索できるところまでは来た
検索が一瞬で終わる
連想配列から単語をキーとしてURLを取ってくるだけなので早い
ただ、検索結果にURLしか表示されない
デライトクローラをメタデータだけでなくページ内の内容も保存するように改変する

あれ

Node.js puppeteer 検索エンジンクローラー 2020年9月20日デライトクローラデライト外部検索通類デライトでクローラーを回すデライトの生HTMLファイル容量実現性検証ページメタ情報の容量

クロールを途中から再開できるようにした

2020/9/22 9:57:00

デライトクローラの再開時に、ファイルに保存したメタデータを読み込むようにした
これでクロールを途中から再開できる
現時点では全メタデータを読み込む
メタデータの増加に合わせて、処理時間と消費メモリーが線形に増加する想定だ
こいつが膨大なデータを集めるまえに、よりかしこい処理方式を実装しなければならない

ページメタ情報の容量

Node.js puppeteer 検索エンジンシステム構成図クローラー 2020年9月20日 miro デライト外部検索通類デライトでクローラーを回す実現性検証構成図

デライト外部検索通類構成概要図

2020/9/21 23:24:00

https://miro.com/app/board/o9J_kkgCSSo=/

あれ

Node.js puppeteer クローラー検索 2020年9月20日デライトでクローラーを回すデライトの生HTMLファイル容量実現性検証

デライト外部検索通類

2020/9/21 23:17:00

デライト外部検索通類をデプロイしたあれクロールを途中から再開できるようにしたデライトクローラデライト外部検索通類構成概要図デライトでクローラーを回す Elastic IP デライト外部検索通類のグローバルIP変更あれ

Node.js puppeteer クローラー 2020年9月20日デライトクローラデライト外部検索通類デライトの生HTMLファイル容量実現性検証ページメタ情報の容量

デライトでクローラーを回す

2020/9/21 23:17:00

デライトから可能な限りデータを取ってきてみる
目的

デライトの外部検索通類の実現性検証
クローラー作成の学習

現在は1アクセス毎に1秒の遅延を入れる
　
クローラーはNode.jsのpuppeteerを使って作成

puppeteer デライト外部検索通類をデプロイしたあれクロールを途中から再開できるようにしたデライトクローラデライト外部検索通類構成概要図デライト外部検索通類 puppeteerでクロールする様子 Windows停止する puppeteer途中で止まるデライトの生HTMLファイル容量実現性検証ページメタ情報の容量野良クローラの推定容量『大規模なデータをJSON.stringifyとBlobを使って保存しようとしたら,ブラウザがエラーを出すときの対処法』一部機能をNode.jsからD言語に移行するクローラで得られるページ数ページのメタ情報だけを保存メタ情報入門自作検索エンジン桁数を一個減らしたい JSON.stringifyに大きいオブジェクトを渡すと、JSONに変換してくれない全輪郭の表題推定容量 WSL2 あれ dockerだとpuppeteerがいい感じに動いている WSL2のalpine上でpuppeteerが動かない検索エンジンをブラウザエクステンションで実装するアイデア