t_wの輪郭

nginxのログお行儀が良い熱心な読者ぬか喜び内部リンク Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36 User-Agent Date last visited クロール偽装

User-Agentを一般のコンピュータに偽装してクロールする輩

2022/10/25 19:45:00

　『t_wの輪郭』にUser-Agentが下記のアクセスがちょいちょい来ていた。Date last visitedが乱れてちょっと気になる程度の頻度。

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36

　内部リンクが無いはずの所にアクセスしており、足跡が妙なため、nginxのログを見たら、なぜか律儀にrobot.txtにアクセスしている。

　熱心な読者が来てくれているとぬか喜びしてしまった。

　しかしまあ、輩と書いてしまったが、User-Agent以外はお行儀が良い。

bot.txtで有力な検索エンジン以外を除外あれ

『t_wの輪郭』で実施した作業 User-Agentを一般のコンピュータに偽装してクロールする輩 robot.txt 有力な検索エンジン

bot.txtで有力な検索エンジン以外を除外

2022/10/25 19:28:00

　User-Agentを一般のコンピュータに偽装してクロールする輩が出てきたので、robot.txtで有力な検索エンジン以外を除外。

　「これも入れるべきだ」みたいなのがあればコメント求む。

robot.txtの中身

User-agent: *
Disallow: /

User-agent: Googlebot
User-agent: bingbot
User-agent: DuckDuckBot
Allow: /

あれ

Node.js User-Agentを一般のコンピュータに偽装してクロールする輩 User-Agent robot.txt デライトをクロール dlt_crawler.js クローラ got dlt_crawler.js by t_w(https://towasys.com/)got (https://github.com/sindresorhus/got)お行儀が悪い

あれ

2022/10/25 19:25:00

　User-Agentを一般のコンピュータに偽装してクロールする輩が来て気になったのだが、私が動かしてるデライトをクロールするクローラ（dlt_crawler.js）のUser-Agentは何になってるんだろう。Node.jsでgotを使っているので、gotになっているはず……？

　Node.jsでgotを使った際のUser-Agentはgot (https://github.com/sindresorhus/got)となっていた。実際にサーバにgotを通してアクセスし、アクセスログを確認した

　gotのレポジトリでuser-agentと検索してみると、headersという引数でUser-Agentを設定できそうだ。

headers: {
'user-agent': undefined
}
── https://github.com/sindresorhus/got/blob/5cbcf526b6e7be5e40f1ad137172d7b2b68988da/documentation/examples/advanced-creation.js#L81

　とりあえず、dlt_crawler.js by t_w(https://towasys.com/)としておこう。こちらUser-Agentが反映されていることをサーバにアクセスして確認済みだ。

　コードは以下のようになった。

response = await got(url, {
    headers: {
        'user-agent': 'dlt_crawler.js by t_w(https://towasys.com/)'
    } 
});

　というかrobot.txtをガン無視しているのでお行儀が悪い気がしてきた。さらっと調べたらデライトにrobot.txtは設定されていないっぽい……？じゃあいいか……いいのか？

あれ