t_wの輪郭

あれ

robot.txt

2022/10/10 20:04:00

MJ12botとDotBotのクロールをrobot.txtで拒否 bot.txtで有力な検索エンジン以外を除外あれ MJ12bot DotBot

『t_wの輪郭』で実施した作業 User-Agentを一般のコンピュータに偽装してクロールする輩 robot.txt 有力な検索エンジン

bot.txtで有力な検索エンジン以外を除外

2022/10/25 19:28:00

　User-Agentを一般のコンピュータに偽装してクロールする輩が出てきたので、robot.txtで有力な検索エンジン以外を除外。

　「これも入れるべきだ」みたいなのがあればコメント求む。

robot.txtの中身

User-agent: *
Disallow: /

User-agent: Googlebot
User-agent: bingbot
User-agent: DuckDuckBot
Allow: /

あれ

Node.js User-Agentを一般のコンピュータに偽装してクロールする輩 User-Agent robot.txt デライトをクロール dlt_crawler.js クローラ got dlt_crawler.js by t_w(https://towasys.com/)got (https://github.com/sindresorhus/got)お行儀が悪い

あれ

2022/10/25 19:25:00

　User-Agentを一般のコンピュータに偽装してクロールする輩が来て気になったのだが、私が動かしてるデライトをクロールするクローラ（dlt_crawler.js）のUser-Agentは何になってるんだろう。Node.jsでgotを使っているので、gotになっているはず……？

　Node.jsでgotを使った際のUser-Agentはgot (https://github.com/sindresorhus/got)となっていた。実際にサーバにgotを通してアクセスし、アクセスログを確認した

　gotのレポジトリでuser-agentと検索してみると、headersという引数でUser-Agentを設定できそうだ。

headers: {
'user-agent': undefined
}
── https://github.com/sindresorhus/got/blob/5cbcf526b6e7be5e40f1ad137172d7b2b68988da/documentation/examples/advanced-creation.js#L81

　とりあえず、dlt_crawler.js by t_w(https://towasys.com/)としておこう。こちらUser-Agentが反映されていることをサーバにアクセスして確認済みだ。

　コードは以下のようになった。

response = await got(url, {
    headers: {
        'user-agent': 'dlt_crawler.js by t_w(https://towasys.com/)'
    } 
});

　というかrobot.txtをガン無視しているのでお行儀が悪い気がしてきた。さらっと調べたらデライトにrobot.txtは設定されていないっぽい……？じゃあいいか……いいのか？

あれ

『t_wの輪郭』nginxのログ 2022年10月13日 MJ12bot DotBot robot.txt 2022年10月10日 SemrushBot DoS

MJ12botとDotBotのクロールをrobot.txtで拒否

2022/10/13 7:48:00

2022年10月10日

なんか『t_wの輪郭』のアクセス数が急増している。アクセス数が2倍ぐらい。DoSか？

nginxのログをみる感じでは、MJ12bot（MJ12bot/v1.4.8）と DotBot（DotBot/1.2）が結構アクセスしてきている。

SemrushBotと同様に、robot.txtで拒否して終わり！明日になったら結果を見る。

User-agent: SemrushBot
User-agent: dotbot
User-agent: MJ12bot
Disallow: /

2022年10月13日

アクセス数が激減していることを確認した。nginxのログでも、MJ12bot と DotBotのアクセスが無くなっている。

あれ

クロール robot.txt クローラ Majestic

MJ12bot

2022/10/10 20:46:00

彼らのサイト： https://mj12bot.com/

MJ12bot is 何

Majesticという被リンク検索システム（SEOツール？）に使用するデータを集めるクローラ。
2秒に1回の頻度でアクセスしてきていた。

robot.txtでMJ12botをブロックする方法

User-agent: MJ12bot
Disallow: /

MJ12botとDotBotのクロールをrobot.txtで拒否

SEO クロール robot.txt クローラ SEOツール Moz

DotBot

2022/10/10 20:46:00

彼らのサイト： https://moz.com/help/moz-procedures/crawlers/dotbot

DotBot is 何

Mozという所のクローラ。
サイトを見る感じでは、SEOツールを売っている。クロールしてSEOに必要な情報を集めているのだろう。
秒間1回の頻度でアクセスしてきていた。

robot.txtでDotBotをブロックする方法

User-agent: dotbot
Disallow: /

MJ12botとDotBotのクロールをrobot.txtで拒否