t_wの輪郭

Feedlyでフォローするボタン
あれ
クローラーあれMJ12botDotBotSemrushBotクローラーになるdlt_crawler.jsあれWeb Prowlerのクローラ機能の取り外し案システムの限界に達したので、やっとスタートラインまで来た感じがあるブラウザアドオンでクローラみたいなことやってたら保存容量の限界に達したあれ『t_wの輪郭』の輪郭に編集日時を表示あれ

あれ

2022/10/25 19:25:00

 User-Agentを一般のコンピュータに偽装してクロールする輩が来て気になったのだが、私が動かしてるデライトをクロールするクローラdlt_crawler.js)のUser-Agentは何になってるんだろう。Node.jsgotを使っているので、gotになっているはず……?

 Node.jsgotを使った際のUser-Agentgot (https://github.com/sindresorhus/got)となっていた。実際にサーバにgotを通してアクセスし、アクセスログを確認した

 gotのレポジトリでuser-agentと検索してみると、headersという引数でUser-Agentを設定できそうだ。

headers: {
'user-agent': undefined
}

 とりあえず、dlt_crawler.js by t_w(https://towasys.com/)としておこう。こちらUser-Agentが反映されていることをサーバにアクセスして確認済みだ。

 コードは以下のようになった。

response = await got(url, {
    headers: {
        'user-agent': 'dlt_crawler.js by t_w(https://towasys.com/)'
    } 
});


 というかrobot.txtをガン無視しているのでお行儀が悪い気がしてきた。さらっと調べたらデライトにrobot.txtは設定されていないっぽい……?じゃあいいか……いいのか?

あれ

2022/9/24 13:15:00

 アメリカと戦うと言った意味では、まともな国産検索エンジンがないのが口惜しい。陰謀論みたいになってしまうが、アメリカがその気になればGoogle検索にくだらない記事を混入させるといったこともできてしまう。意図的じゃなくとも、検索結果にかける熱量もとい手間の量がそもそも違うだろう。ただ、現時点の話をすれば、Google検索は日本語を重要視しているらしい。

 そう言った意味では、ローカルのPCでクローラを回してオープンソースの検索エンジンを動かすというのは悪いアイデアじゃない。今流行りのプライバシーにも完璧に対応できる。ただ、インターネットの圧倒的な物量にはインデックスであってもローカルのPCには入りきらないということが絶望的に欠点だった。

 今から追い上げるのは難しいにしても、いつでも作れるような地固めはできないものだろうか。

 クロールする際に日時を取得していたが、日時をparseしてtimestampにする際にJSTではなくUTCでparseしてしまっていた。
 「DBに保存されている輪郭の編集日時JSTに補正」、「クローラが日時をJSTでパースするように改修」によって対処した。
 最初、JavaScriptDateモジュールでタイムゾーンを指定すれば治るかと思っていろいろ調べてしまった。

あれ

2022/4/29 13:14:00

PCをスリープにしたら落ちてる
sshが切れるとだめなやつだろうか


CPU利用率が127%になっていた。負荷がかかりすぎている。単純にスペック不足っぽい。裏でクローラも回しながらだと処理能力が足りないのだろう。というかクローラにpuppeteerを使うのをやめたい。裏でChromiumが動くので重たくなっているはずだ。


topコマンドでCPU使用率を見たところ、やはりChromeが多くを利用している。

デライトクローラーあれSemrushBot2023年11月9日日記あれデライト外部検索通類をデプロイしたあれクロールを途中から再開できるようにしたデライトクローラデライト外部検索通類 構成概要図デライト外部検索通類デライトでクローラーを回すpuppeteerでクロールする様子ページメタ情報の容量野良クローラの推定容量クローラで得られるページ数入門自作検索エンジン桁数を一個減らしたいあれgo.jpをクロールするスクリプトデライト起点のクローラーあれbingbot検索エンジンをブラウザエクステンションで実装するアイデア閲覧履歴閲覧履歴起点の検索エンジン古き良きインターネットを作るアイデア検索エンジン関連の特許に注意『Peta-Byte Scale Web Crawler · Success Stories』人力クローラー『Xユーザーの辻正浩 | Masahiro Tsujiさん: 「「最大手検索エンジン以外はサーバ負荷からまともにクロールさせてもらえない問題」の対応のため、Microsoft Bingはサイト管理者からコンテンツを送りクロールを削減するBing Content Submission APIや他社と連携したIndexNowの仕組みなどで試行錯誤した。 一方BraveはGoogleを名乗ってクロールした」 / X』

あれ

2021/8/26 3:55:00

多数の人がローカルでクローラを回すと、DDoSみたいにならないかが不安。
動画よりは帯域を食わないとは思うが、念のために計算しておいたほうが良さそう?

重たさの原因になっている。推薦の算出対象をお気に入りと履歴だけにすれば、極めて軽量にできるはずだ。10年ほどして、一般的なPCの性能が上がったらまたクローラ機能を入れればいいだろう。

  • 利点
    • 実現性が高い
  • 欠点
    • 作るのが面白くない
    • あまり便利でない