t_wの輪郭

Feedlyでフォローするボタン
crawl
User-Agentを一般のコンピュータに偽装してクロールする輩MJ12botDotBot現実をクロールデライトをクロール思考をクロール『t_wの輪郭』の輪郭に編集日時を表示あれScrapboxだけ検索するWebサービス表最強説あれ『Xユーザーの辻正浩 | Masahiro Tsujiさん: 「「最大手検索エンジン以外はサーバ負荷からまともにクロールさせてもらえない問題」の対応のため、Microsoft Bingはサイト管理者からコンテンツを送りクロールを削減するBing Content Submission APIや他社と連携したIndexNowの仕組みなどで試行錯誤した。 一方BraveはGoogleを名乗ってクロールした」 / X』

https://x.com/tsuj/status/1816683754368434632

 『t_wの輪郭』User-Agentが下記のアクセスがちょいちょい来ていた。Date last visitedが乱れてちょっと気になる程度の頻度。

 内部リンクが無いはずの所にアクセスしており、足跡が妙なため、nginxのログを見たら、なぜか律儀にrobot.txtにアクセスしている。

 熱心な読者が来てくれているとぬか喜びしてしまった。

 しかしまあ、輩と書いてしまったが、User-Agent以外はお行儀が良い。

あれ

2022/7/17 18:27:00

急に輪郭が作成されてドキドキしている。自分で書いた輪郭だけとはいえ、勝手にデライトをクロール(というかスクレイピング?)して転載しているので、ちょっと後ろめたいところがある。転載禁止を言い渡されたら消すしかない。


ありがたいですとのお返事をいただいた。安心した。

 クロールする際に日時を取得していたが、日時をparseしてtimestampにする際にJSTではなくUTCでparseしてしまっていた。
 「DBに保存されている輪郭の編集日時JSTに補正」、「クローラが日時をJSTでパースするように改修」によって対処した。
 最初、JavaScriptDateモジュールでタイムゾーンを指定すれば治るかと思っていろいろ調べてしまった。

hogehoge site:http://scrapbox.ioでよくググるので、Scrapboxだけ検索するWebサービスとかあれば面白かろうかと思うのだけど、作るには色々重たすぎるし、流行ればアビューズされるし、クロールすればScrapboxに負荷かけちゃうかもだしなどと考えてる