クローラー対策ポリシー ファイルを追加しました: vim /usr/www/server/nginx/conf/anti_spider.conf ファイルの内容 #Scrapyなどのツールによるクロールを無効にする if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) { 403 を返します。 } # 指定された UA または空の UAif によるアクセスを無効にします ($http_user_agent ~ "WinHttp|WebZIP|FetchURL|node-superagent|java/|FeedDemon|Jullo|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|Java|Feedly|Apache-HttpAsyncClient|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|BOT/0.1|YandexBot|FlightDeckReports|Linguee Bot|^$" ) { 403 を返します。 } #GET|HEAD|POST以外の方法によるクロールを無効にする if ($request_method !~ ^(GET|HEAD|POST)$) { 403 を返します。 } #単一のIPをブロックするコマンドは#deny 123.45.6.7です #123.0.0.1 から 123.255.255.254 までのセグメント全体をブロック#deny 123.0.0.0/8 #123.45.0.1 から 123.45.255.254 までの IP 範囲をブロックします #124.45.0.0/16 を拒否します #123.45.6.1から123.45.6.254までのIP範囲をブロックするコマンドは#deny 123.45.6.0/24です # 以下の IP はすべて不正です #deny 58.95.66.0/24; 構成の使用法 サイトのサーバーに導入する # クローラー対策には /usr/www/server/nginx/conf/anti_spider.conf を含める 最後にnginxを再起動します 有効かどうかを確認する YYSpiderのシミュレーション λ curl -X GET -I -A 'YYSpider' https://www.myong.top HTTP/1.1 200 接続が確立されました HTTP/2 403 サーバー: marco/2.11 日付: 2020年3月20日金曜日 08:48:50 GMT コンテンツタイプ: text/html コンテンツの長さ: 146 xソース: C/403 x-リクエストID: 3ed800d296a12ebcddc4d61c57500aa2 Baiduspiderをシミュレートする λ curl -X GET -I -A 'BaiduSpider' https://www.myong.top HTTP/1.1 200 接続が確立されました HTTP/2 200 サーバー: marco/2.11 日付: 2020年3月20日金曜日 08:49:47 GMT コンテンツタイプ: text/html 変化: Accept-Encoding xソース: C/200 最終更新日: 2020年3月18日水曜日 13:16:50 GMT 電子タグ: "5e721f42-150ce" x-リクエストID: e82999a78b7d7ea2e9ff18b6f1f4cc84 クローラーの一般的なユーザーエージェント FeedDemon コンテンツ コレクション BOT/0.1 (JCE 用 BOT) SQL インジェクション CrawlDaddy SQL インジェクション Java コンテンツ コレクション Jullo コンテンツ コレクション Feedly コンテンツ コレクション UniversalFeedParser コンテンツ コレクション ApacheBench cc 攻撃者 Swiftbot 役に立たないクローラー YandexBot 役に立たないクローラー AhrefsBot 役に立たないクローラー YisouSpider 役に立たないクローラー (UC Shenma Search に買収されました。このスパイダーはリリースできます!) jikeSpider 役に立たないクローラーMJ12bot 役に立たないクローラーZmEu phpmyadmin 脆弱性スキャンWinHttp コレクションcc 攻撃EasouSpider 役に立たないクローラーHttpClient tcp 攻撃Microsoft URL コントロール スキャンYYSpider 役に立たないクローラーjaunty wordpress ブラスト スキャナーoBot 役に立たないクローラーPython-urllib コンテンツ コレクションIndy ライブラリ スキャンFlightDeckReports Bot 役に立たないクローラーLinguee Bot 役に立たないクローラー 上記は、UA による Web サイトのクロールを防ぐための Nginx アンチクローラー戦略の詳細です。Nginx アンチクローラーの詳細については、123WORDPRESS.COM の他の関連記事をご覧ください。 以下もご興味があるかもしれません:
|
<<: MySQLのファジークエリのような遅い速度を解決する方法
>>: Web インタビュー: MVC と MVVM の違いと、Vue が MVVM に完全に準拠していない理由
目次パーサーとプリプロセッサクエリオプティマイザーMySQL クエリの最適化には、解析、前処理、最適...
1. 環境仮想マシン上で実行されているUbuntu 16.04では、コマンドuname -rを使用し...
目次1. --skip-grant-tables 経由で取得する1.1 my.conf を変更し、新...
目次1. 最も適切なフィールド属性を選択する2. フィールドをNOT NULLに設定してみる3. サ...
概要Nginx では変数を使用して設定を簡素化し、設定の柔軟性を向上させることができます。すべての変...
1. インデックスの役割一般的なアプリケーション システムでは、読み取りと書き込みの比率は約 10:...
HOCを紹介する一文高階コンポーネント (HOC) とは何ですか? 公式ドキュメントによると、「高階...
目次ケース1:ケース2:ケース3:簡単にまとめると:過去 2 日間で、完全なテーブル スキャンを引き...
クラウドサーバーを使用するとデータベースに接続できる場合もありますが、Navicat Premium...
最近人気のWeChatタップ機能を見て、CSS3アニメーションを見直し、このボックスシェイクアニメー...
障害の説明percona5.6、mysqldump フルバックアップ、バックアップデータのインポート...
大学 4 年生のときのインターンシップ中に、表内のデータの番号をクリックすると、そのデータの下に新し...
この記事では、1枚以上の写真をアップロードするためのVant Uploaderコンポーネントを紹介し...
目次背景問題分析1. 属性値はJson形式であり、Json操作関数を使用して処理する必要があります。...
プロジェクトのニーズにより、ブートストラップ フレームワークを慎重に学習する予定です。以前から少しは...