t_wの輪郭

Feedlyでフォローするボタン
Node.jsChrome2020年9月20日デライトでクローラーを回すWindows停止するpuppeteer途中で止まる
手書きデータの画像化octpepper『ヘッドレスブラウザ+Puppeteerが使える「Cloudflare Workers Browser Rendering API」がオープンベータに』デライト外部検索通類をデプロイしたあれクロールを途中から再開できるようにしたデライト外部検索通類 構成概要図デライト外部検索通類デライトでクローラーを回すpuppeteerでクロールする様子Windows停止するあれconvert-svg-to-pngあれdockerだとpuppeteerがいい感じに動いているPuppeteerのようなブラウザ自動操作ツールをサーバ上で動かせばScrapboxへの書き込みを自動化できる。ただし、自分だけが使えるサービスになる。一旦はそれでいいかな。 公開されたサービスにして、広く利用してもらいたい気持ちがある。あれ

あれ

2024/3/14 13:11:00

CloudWatch SyntheticsがPuppeteerでサービスの監視ができて良さそうだなってみてたんだけど、5分毎の処理で月額1万円こえるみたいでしんどい。

OGPを通して画像を要求された際に、
■ 手書きデータ→SVG→ブラウザのCanvasに描画→スクショ→PNGとして返す
っていう処理になってたのを、
■ 手書きデータ→ブラウザのCanvasに描画→スクショ→PNGとして返す
っていう処理に書き換えた


そもそもなんでブラウザやねんとなっており、
■ 手書きデータ→PNG
にしたい


現状だとサーバーでChromiumを起動するpuppeteerが走っており、これが大変遅い。起動やらなんやらするだけで1秒かかる。画面遷移に時間がかかってる説があるのでその辺の高速化がいりそう。

あれ

2022/4/29 13:14:00

PCをスリープにしたら落ちてる
sshが切れるとだめなやつだろうか


CPU利用率が127%になっていた。負荷がかかりすぎている。単純にスペック不足っぽい。裏でクローラも回しながらだと処理能力が足りないのだろう。というかクローラにpuppeteerを使うのをやめたい。裏でChromiumが動くので重たくなっているはずだ。


topコマンドでCPU使用率を見たところ、やはりChromeが多くを利用している。

あれ

2022/3/22 11:07:00

JavaScriptを書けば書くほど落とし穴を自分で掘ってる感じがする


Typescriptに変えよう🥺🥺🥺


Typescript勉強するか~~~~~~
puppeteerによる自動テストもやってみてるけど、早すぎた感


ライブラリに渡す引数に何渡せばいいかわかるし、タイポも減らせるし、バグを圧倒的に減らせたからオヌヌメ・・・!


拡張子をjsからtsに変えたら、至る所が真っ赤になってわろてる


お、tsへの移行が完了した。
300行のJavaScriptだったけど、TypeScriptへの移行に1.5時間かかった。
これから効率が良くなるので、これから取り戻せるはず。

Puppeteerのようなブラウザ自動操作ツールをサーバ上で動かせばScrapboxへの書き込みを自動化できる。ただし、自分だけが使えるサービスになる。一旦はそれでいいかな。
公開されたサービスにして、広く利用してもらいたい気持ちがある。
https://twitter.com/tuppye/status/1323533538042413056

デライト外部検索通類AWSデプロイした。↓のリンクから利用できる
http://ec2-52-193-108-6.ap-northeast-1.compute.amazonaws.com:8080/
 
デライトクローラが取得した1万9千の輪郭から検索できる

  • 1秒未満で検索が完了する
  • 10個までしか検索結果が表示されない
    • ページャー未実装
  • 検索結果に重複がある
    • 重複を削除する処理が未実装
  • 見た目が悪い
    • CSS未実装
      • node.jsで直接HTMLを吐き出しているため、複雑なフロントエンドを作るのは手間がかかる
        • テンプレートエンジンなどに乗り換えたい
  • 検索結果の並びがクロールされた順番になっている
    • ページランクで並び変える機能が未実装

あれ

2020/9/24 23:41:00

コマンドラインからデライトを検索できるところまでは来た
検索が一瞬で終わる
連想配列から単語をキーとしてURLを取ってくるだけなので早い
ただ、検索結果にURLしか表示されない
デライトクローラをメタデータだけでなくページ内の内容も保存するように改変する

デライトクローラの再開時に、ファイルに保存したメタデータを読み込むようにした
これでクロールを途中から再開できる
現時点では全メタデータを読み込む
メタデータの増加に合わせて、処理時間と消費メモリーが線形に増加する想定だ
こいつが膨大なデータを集めるまえに、よりかしこい処理方式を実装しなければならない

puppeteerデライト外部検索通類をデプロイしたあれクロールを途中から再開できるようにしたデライトクローラデライト外部検索通類 構成概要図デライト外部検索通類puppeteerでクロールする様子Windows停止するpuppeteer途中で止まるデライトの生HTMLファイル容量実現性検証ページメタ情報の容量野良クローラの推定容量『大規模なデータをJSON.stringifyとBlobを使って保存しようとしたら,ブラウザがエラーを出すときの対処法』一部機能をNode.jsからD言語に移行するクローラで得られるページ数ページのメタ情報だけを保存メタ情報入門自作検索エンジン桁数を一個減らしたいJSON.stringifyに大きいオブジェクトを渡すと、JSONに変換してくれない全輪郭の表題推定容量WSL2あれdockerだとpuppeteerがいい感じに動いているWSL2のalpine上でpuppeteerが動かない検索エンジンをブラウザエクステンションで実装するアイデア
<div style="width:100%;height:0px;position:relative;padding-bottom:108.898%;"><iframe src="https://streamable.com/e/ocvssv" frameborder="0" width="100%" height="100%" allowfullscreen style="width:50%;height:50%;position:absolute;left:0px;top:0px;overflow:hidden;"></iframe></div> </>

Windows停止する

2020/9/20 17:02:00

突然動かなくなる
puppeteerと相性が悪いらしい
Dockerなり、WSL2なりでWindowsと隔離して動かしたほうが良さそうだ