ウェブサイトのコンテンツが検索エンジンに含まれないようにする方法

ウェブサイトのコンテンツが検索エンジンに含まれないようにする方法

通常、Web サイトを構築する目的は、検索エンジンにインデックス登録してもらい、プロモーションを拡大することです。しかし、Web サイトに個人のプライバシーや機密性の高い非公開の Web ページが含まれており、検索エンジンによるインデックス登録やクロールを禁止する必要がある場合、どうすればよいでしょうか。たとえば、Taobao は検索エンジンによるインデックス作成が禁止されている Web サイトの例です。この記事では、検索エンジンによる Web サイト コンテンツのインデックス作成とクロールをブロックまたは禁止するいくつかの方法について説明します。

検索エンジンのスパイダーはインターネットを絶えずクロールしています。当社のウェブサイトが検索エンジンによるインデックス作成を禁止する措置を講じなければ、検索エンジンによって簡単にインデックス作成されてしまいます。ここでは、検索エンジンがウェブサイトのコンテンツをインデックスしないようにする方法を説明します。

まず、robots.txtメソッド

検索エンジンはデフォルトで robots.txt プロトコルに準拠しています (一部の不正なエンジンは除きます)。robots.txt テキスト ファイルを作成し、Web サイトのルート ディレクトリに配置します。コードを次のように編集します。

ユーザーエージェント: *
許可しない: /

上記のコードを使用すると、検索エンジンにこの Web サイトをクロールしてインデックスしないように指示できます。上記のコードを使用するときは注意してください。これにより、すべての検索エンジンが Web サイトのどの部分にもアクセスできなくなります。

Baidu検索エンジンによるウェブページのインデックス作成とクロールのみを禁止する場合

1. robots.txt ファイルを編集し、マークアップを次のように設計します。

ユーザーエージェント: Baiduspider
許可しない: /

上記の robots ファイルは、Baidu からのすべてのクロールを禁止します。

ここで、Baidu のユーザーエージェントについてお話ししましょう。Baiduspider のユーザーエージェントとは何でしょうか?

Baidu はさまざまな製品に異なるユーザーエージェントを使用します。

  • 製品名はユーザーエージェントに対応しています
  • ワイヤレス検索 Baiduspider
  • 画像検索 Baiduspider-image
  • ビデオ検索 Baiduspider-video
  • ニュース検索 Baiduspider-news
  • Baidu コレクション Baiduspider-favo
  • 百度アライアンス Baiduspider-cpro
  • ビジネス検索 Baiduspider-ads
  • ウェブ検索とその他の検索 Baiduspider

各製品の異なるユーザーエージェントに基づいて、異なるクロール ルールを設定できます。次のロボット実装では、Baidu からのクロールはすべて禁止されますが、画像検索による /image/ ディレクトリのクロールは許可されます。

ユーザーエージェント: Baiduspider
許可しない: /

ユーザーエージェント: Baiduspider-image
許可: /image/

注意: Baiduspider-cpro および Baiduspider-ads によってクロールされた Web ページはインデックス化されません。これらは顧客と合意した操作を実行するだけなので、ロボット プロトコルに準拠していません。これは Baidu に連絡することによってのみ解決できます。

Google 検索エンジンによる Web ページのインデックス作成とクロールのみを禁止するにはどうすればよいでしょうか? 方法は次のとおりです。

robots.txt ファイルを編集し、次のようにマークします。

ユーザーエージェント: googlebot
許可しない: /

2番目は、ウェブページコード方式

ウェブサイトのホームページ コードの <head> と </head> の間に、コード <meta name="robots" content="noarchive"> を追加します。このタグは、検索エンジンがウェブサイトをクロールしてウェブ ページのスナップショットを表示することを禁止します。

Baidu 検索エンジンが Web サイトをクロールして Web ページのスナップショットを表示するのを防ぐには、Web サイトのホームページの <head> コードと </head> コードの間に <meta name="Baiduspider" content="noarchive"> を追加します。

Google 検索エンジンがウェブサイトをクロールしてウェブページのスナップショットを表示するのを防ぐには、ウェブサイトのホームページの <head> コードと </head> コードの間に <meta name="googlebot" content="noarchive"> を追加します。

さらに、次のような状況のように、私たちのニーズが非常に奇妙な場合もあります。

1. ウェブサイトに robots.txt が追加されましたが、Baidu 検索でまだ見つかりますか?

検索エンジンのインデックスデータベースの更新には時間がかかるためです。 Baiduspider はお客様の Web サイト上の Web ページへのアクセスを停止しましたが、Baidu 検索エンジン データベースに確立された Web ページ インデックス情報をクリアするには数か月かかる場合があります。ロボットの設定が正しいかどうかも確認してください。掲載を拒否する必要がある場合は、苦情プラットフォームを通じてリクエストを送信することもできます。

2. ウェブサイトのコンテンツを Baidu でインデックス化したいのですが、スナップショットとして保存したくありません。どうすればいいですか?

Baiduspider はインターネット メタ ロボット プロトコルに準拠しています。 Web ページのメタ設定を使用すると、Baidu でそのページのみをインデックスし、検索結果にそのページのスナップショットを表示しないようにすることができます。ロボットの更新と同様に、検索エンジンのインデックス データベースの更新にも時間がかかります。そのため、Web ページのメタを通じて Baidu がページのスナップショットを検索結果に表示することを禁止した場合でも、Web ページのインデックス情報がすでに Baidu 検索エンジン データベースに設定されている場合は、更新がオンラインで有効になるまでに 2 ~ 4 週間かかることがあります。

3. Baidu にインデックス登録したいが、Web サイトのスナップショットを保存したくない場合は、次のコードで問題を解決できます。

<meta name="Baiduspider" content="noarchive">

4. すべての検索エンジンが Web ページのスナップショットを保存することを禁止する場合、コードは次のようになります。

<meta name="robots" content="noarchive">

よく使用されるコードの組み合わせを以下に示します。

  • <META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">: このページはクロール可能であり、このページに沿って他のリンクをインデックス化できます。
  • <META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">: このページはクロールしませんが、このページに沿った他のリンクはクロールしてインデックスできます。
  • <META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">: このページはクロールできますが、このページに沿った他のリンクはクロールおよびインデックス化できません。
  • <META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">: このページをクロールせず、このページに沿った他のリンクをクロールしてインデックス付けしません

要約する

以上がこの記事の全内容です。この記事の内容が皆様の勉強や仕事に何らかの参考学習価値をもたらすことを願います。123WORDPRESS.COM をご愛顧いただき、誠にありがとうございます。これについてもっと知りたい場合は、次のリンクをご覧ください。

以下もご興味があるかもしれません:
  • Nginx サーバーで Web クローラーをブロックおよび禁止する方法
  • Python クローラー beautifulsoup4 でよく使用される解析方法の概要
  • 簡単にクエリできる Python 共通クローラー コードの概要
  • Pythonはリクエストを通じてTencent Newsクローラーを実装する
  • Python3クローラーは天気を自動的に照会し、音声放送を実現します
  • Python クローラー UserAgent の使用例
  • node.js ベースのクローラー実装の説明
  • Scrapy Webクローラーフレームワークの動作原理とデータ収集に関する簡単な説明
  • Electronを使用してインターフェース付きのNode.jsクローラーを作成する方法
  • Pythonクローラーでお金を稼ぐ方法

<<:  Vue プロジェクトで Baidu Map API を使用する方法

>>:  Node.js で MySQL データベースにバッチデータを挿入する方法

推薦する

88 秒で 1,000 万件のレコードを MySQL データベース テーブルに挿入する方法

私が使用しているデータベースはMySQLデータベースバージョン5.7ですまずデータベーステーブルを自...

Windows 10 での MySQL 8.0.22 のインストールと設定方法のグラフィック チュートリアル

MySQL 8.0.22のインストールと設定方法のグラフィックチュートリアル、参考までに、具体的な内...

Linux suse11でルートパスワードを忘れた場合に変更する方法の簡単な分析

SUSE Linuxでルートパスワードを忘れた場合の解決方法SUSE (Linux オペレーティング...

VSCode+CMake+Clang+GCC 環境構築チュートリアル (Win10 の場合)

大学院入試に備えて、C/C++ を使って基本的なデータ構造とアルゴリズムを実装する予定です。アルゴリ...

英語のシングルクォーテーション「''」を含むSQLの記述の失敗について徹底解説

問題が発生しました。情報の編集をテストする際、編集した内容に一重引用符 (') が含まれてい...

MySQL 自動インクリメント ID のオーバーサイズ問題のトラブルシューティングと解決策

導入Xiao A がコードを書いていたところ、DBA Xiao B が突然、「急いでユーザー固有情報...

ウェブページ内でウェブテーブルやdivレイヤーが引き伸ばされる問題の解決策

<br />Web ページをデザインするときには、いつも不快なことに遭遇します。最も一般...

MySQL の DDL と DML についての簡単な説明

目次序文1. DDL 1.1 データベース操作1.2 データテーブルの操作1.3 一般的なデータ型1...

1つの記事でJavaScriptのクロージャ関数について学ぶ

目次変数のスコープ閉鎖の概念クロージャの使用クロージャのデメリット最後に、クロージャのメリットとデメ...

CSS3プロパティline-clampはテキスト行の使用を制御します

説明: ブロック要素に表示されるテキストの行数を制限します。 -webkit-line-clamp ...

CentOS 6 は Docker を使用して Redis マスター スレーブ データベース操作例を展開します

この記事では、Docker を使用して Centos6 に Redis マスター/スレーブ データベ...

Vue データ内のプロパティをランダムに変更すると、ビューは更新されますか?

インタビュアー: Vue のソースコードを読んだことはありますか?応募者:あります。インタビュアー:...

Linux で tcpdump コマンドを使用してデータ パケットをキャプチャおよび分析する方法の詳細な説明

序文tcpdump はよく知られたコマンドライン パケット分析ツールです。 tcpdump コマンド...

MYSQL の 3 つのツリー構造テーブル設計の長所と短所の簡単な分析と共有

目次導入質問設計 1: 隣接リストテーブルデザインSQL の例デザイン 2: パスの列挙テーブルデザ...

vue-cli の紹介とインストール

目次1. はじめに2. vue-cli の紹介2.1 コマンドライン2.2 CLI サービス2.3 ...