t_wの輪郭

Feedlyでフォローするボタン

あれ

2022/7/17 18:27:00

急に輪郭が作成されてドキドキしている。自分で書いた輪郭だけとはいえ、勝手にデライトをクロール(というかスクレイピング?)して転載しているので、ちょっと後ろめたいところがある。転載禁止を言い渡されたら消すしかない。


ありがたいですとのお返事をいただいた。安心した。

 『t_wの輪郭』User-Agentが下記のアクセスがちょいちょい来ていた。Date last visitedが乱れてちょっと気になる程度の頻度。

 内部リンクが無いはずの所にアクセスしており、足跡が妙なため、nginxのログを見たら、なぜか律儀にrobot.txtにアクセスしている。

 熱心な読者が来てくれているとぬか喜びしてしまった。

 しかしまあ、輩と書いてしまったが、User-Agent以外はお行儀が良い。

 クロールする際に日時を取得していたが、日時をparseしてtimestampにする際にJSTではなくUTCでparseしてしまっていた。
 「DBに保存されている輪郭の編集日時JSTに補正」、「クローラが日時をJSTでパースするように改修」によって対処した。
 最初、JavaScriptDateモジュールでタイムゾーンを指定すれば治るかと思っていろいろ調べてしまった。

hogehoge site:http://scrapbox.ioでよくググるので、Scrapboxだけ検索するWebサービスとかあれば面白かろうかと思うのだけど、作るには色々重たすぎるし、流行ればアビューズされるし、クロールすればScrapboxに負荷かけちゃうかもだしなどと考えてる