t_wの輪郭

クローラ

2020/12/21 0:51:00

クローラーあれ MJ12bot DotBot SemrushBot クローラーになる dlt_crawler.js あれ Web Prowlerのクローラ機能の取り外し案システムの限界に達したので、やっとスタートラインまで来た感じがあるブラウザアドオンでクローラみたいなことやってたら保存容量の限界に達したあれ『t_wの輪郭』の輪郭に編集日時を表示あれ

2022年5月5日散歩メモ現実をクロールなるクローラ

クローラーになる

2023/4/29 15:17:00

あれ

Node.js User-Agentを一般のコンピュータに偽装してクロールする輩 User-Agent robot.txt デライトをクロール dlt_crawler.js クローラ got dlt_crawler.js by t_w(https://towasys.com/)got (https://github.com/sindresorhus/got)お行儀が悪い

あれ

2022/10/25 19:25:00

　User-Agentを一般のコンピュータに偽装してクロールする輩が来て気になったのだが、私が動かしてるデライトをクロールするクローラ（dlt_crawler.js）のUser-Agentは何になってるんだろう。Node.jsでgotを使っているので、gotになっているはず……？

　Node.jsでgotを使った際のUser-Agentはgot (https://github.com/sindresorhus/got)となっていた。実際にサーバにgotを通してアクセスし、アクセスログを確認した

　gotのレポジトリでuser-agentと検索してみると、headersという引数でUser-Agentを設定できそうだ。

headers: {
'user-agent': undefined
}
── https://github.com/sindresorhus/got/blob/5cbcf526b6e7be5e40f1ad137172d7b2b68988da/documentation/examples/advanced-creation.js#L81

　とりあえず、dlt_crawler.js by t_w(https://towasys.com/)としておこう。こちらUser-Agentが反映されていることをサーバにアクセスして確認済みだ。

　コードは以下のようになった。

response = await got(url, {
    headers: {
        'user-agent': 'dlt_crawler.js by t_w(https://towasys.com/)'
    } 
});

　というかrobot.txtをガン無視しているのでお行儀が悪い気がしてきた。さらっと調べたらデライトにrobot.txtは設定されていないっぽい……？じゃあいいか……いいのか？

あれ

デライトクローラデライトをクロールクローラ

dlt_crawler.js

2022/10/25 19:25:00

デライトをクロールするクローラ

あれあれ 2022年12月3日日記 ecosystem.config.cjs(dlt_crawler.jsをPM2を通してdenoで動かす)dlt_crawler.js by t_w(https://towasys.com/)あれ

クロール robot.txt クローラ Majestic

MJ12bot

2022/10/10 20:46:00

彼らのサイト： https://mj12bot.com/

MJ12bot is 何

Majesticという被リンク検索システム（SEOツール？）に使用するデータを集めるクローラ。
2秒に1回の頻度でアクセスしてきていた。

robot.txtでMJ12botをブロックする方法

User-agent: MJ12bot
Disallow: /

MJ12botとDotBotのクロールをrobot.txtで拒否

SEO クロール robot.txt クローラ SEOツール Moz

DotBot

2022/10/10 20:46:00

彼らのサイト： https://moz.com/help/moz-procedures/crawlers/dotbot

DotBot is 何

Mozという所のクローラ。
サイトを見る感じでは、SEOツールを売っている。クロールしてSEOに必要な情報を集めているのだろう。
秒間1回の頻度でアクセスしてきていた。

robot.txtでDotBotをブロックする方法

User-agent: dotbot
Disallow: /

MJ12botとDotBotのクロールをrobot.txtで拒否

検索エンジンあれ Google検索検索結果クローラ意図的でない Google検索は日本語を重要視国産検索エンジン

あれ

2022/9/24 13:15:00

　アメリカと戦うと言った意味では、まともな国産検索エンジンがないのが口惜しい。陰謀論みたいになってしまうが、アメリカがその気になればGoogle検索にくだらない記事を混入させるといったこともできてしまう。意図的じゃなくとも、検索結果にかける熱量もとい手間の量がそもそも違うだろう。ただ、現時点の話をすれば、Google検索は日本語を重要視しているらしい。

　そう言った意味では、ローカルのPCでクローラを回してオープンソースの検索エンジンを動かすというのは悪いアイデアじゃない。今流行りのプライバシーにも完璧に対応できる。ただ、インターネットの圧倒的な物量にはインデックスであってもローカルのPCには入りきらないということが絶望的に欠点だった。

　今から追い上げるのは難しいにしても、いつでも作れるような地固めはできないものだろうか。

Google検索は日本語を重要視

クローラークローラ bot

SemrushBot

2022/8/11 17:19:00

MJ12botとDotBotのクロールをrobot.txtで拒否 SemrushBotのアクセスを拒否

『t_wの輪郭』で実施した作業クロール JavaScript クローラ timezone Date 編集日時 UTC JST

『t_wの輪郭』の輪郭に編集日時を表示

2022/5/1 21:58:00

　クロールする際に日時を取得していたが、日時をparseしてtimestampにする際にJSTではなくUTCでparseしてしまっていた。
　「DBに保存されている輪郭の編集日時をJSTに補正」、「クローラが日時をJSTでパースするように改修」によって対処した。
　最初、JavaScriptのDateモジュールでタイムゾーンを指定すれば治るかと思っていろいろ調べてしまった。