Robots.txtの詳細な紹介

Robots.txtの詳細な紹介

Robots.txt はプレーンテキスト ファイルであり、Web サイト管理者は、ロボットによるアクセスを禁止する Web サイトの一部を宣言したり、検索エンジンが特定のコンテンツのみをインデックスするように指定したりできます。 robots.txt の基本的な紹介
Robots.txt はプレーンテキスト ファイルであり、Web サイト管理者は、ロボットによるアクセスを禁止する Web サイトの一部を宣言したり、検索エンジンが特定のコンテンツのみをインデックスするように指定したりできます。
検索ロボット (検索スパイダーと呼ばれることもあります) がサイトを訪問すると、まずサイトのルート ディレクトリに robots.txt があるかどうかを確認します。存在する場合、検索ロボットはファイルの内容に応じてアクセス範囲を決定します。ファイルが存在しない場合、検索ロボットはリンクに沿ってクロールします。
さらに、robots.txt はサイトのルート ディレクトリに配置する必要があり、ファイル名はすべて小文字にする必要があります。
robots.txt の記述構文<br />まず、robots.txt の例を見てみましょう: http://www.csswebs.org/robots.txt
上記の特定のアドレスにアクセスすると、robots.txt の具体的な内容が次のように表示されます。
# http://www.csswebs.org の Robots.txt ファイル
# すべてのロボットがドメインをスパイダーします
ユーザーエージェント: *
許可しない:
上記のテキストは、すべての検索ロボットが www.csswebs.org サイトのすべてのファイルにアクセスできることを意味します。
特定の構文分析: # の後のテキストは説明情報です。User-agent: の後には検索ロボットの名前が続きます。* が続く場合は、すべての検索ロボットを参照します。Disallow: の後には、アクセスが許可されていないファイル ディレクトリが続きます。
以下に、robots.txt の具体的な使用例をいくつか挙げます。
すべてのロボットにアクセスを許可する
ユーザーエージェント: *
許可しない:
または、空のファイル「/robots.txt」を作成することもできます
すべての検索エンジンがサイトのどの部分にアクセスできないようにブロックする
ユーザーエージェント: *
許可しない: /
すべての検索エンジンがサイトのいくつかのセクション(以下の例ではディレクトリ 01、02、03)にアクセスするのをブロックします。

ユーザーエージェント: *
禁止: /01/
禁止: /02/
許可しない: /03/
検索エンジンへのアクセスをブロックする(下の例ではBadBot)
ユーザーエージェント: BadBot
許可しない: /
特定の検索エンジン(以下の例ではクローラー)からのアクセスのみを許可する
ユーザーエージェント: クローラー
許可しない:
ユーザーエージェント: *
許可しない: /
さらに、これを拡張してロボット メタを導入​​する必要があると考えています。
Robots META タグは主に特定のページを対象としています。他の META タグ (使用言語、ページの説明、キーワードなど) と同様に、Robots META タグもページの <head> </head> に配置され、特に検索エンジン ROBOTS にページのコンテンツをクロールする方法を伝えるために使用されます。
Robots META タグの書き方:
Robots META タグでは大文字と小文字は区別されません。name="Robots" はすべての検索エンジンを意味し、特定の検索エンジンの場合は name="BaiduSpider" と記述できます。コンテンツ部分には、index、noindex、follow、nofollow の 4 つのコマンド オプションがあります。コマンドは「,」で区切られます。
INDEX ディレクティブは、検索ロボットにページをクロールするように指示します。
FOLLOW 命令は、検索ロボットがページ上のリンクに沿ってクロールを続行できることを示します。
Robots Meta タグのデフォルト値は INDEX と FOLLOW ですが、inktomi の場合、デフォルト値は INDEX、NOFOLLOW です。
したがって、組み合わせは次の 4 つになります。
<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
<META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”>
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">
このうち、<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”> は <META NAME=”ROBOTS” CONTENT=”ALL”> と記述できます。
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW"> は <META NAME="ROBOTS" CONTENT="NONE"> と記述できます。
現時点では、検索エンジンロボットの大半は robots.txt のルールに従っているようです。Robots META タグについては、現時点ではサポートがあまりありませんが、徐々に増えてきています。たとえば、有名な検索エンジン GOOGLE はこれを全面的にサポートしており、GOOGLE は Web ページのスナップショットを保持するかどうかを制限できるコマンド「archive」も追加しました。例えば:
<META NAME=”googlebot” CONTENT=”index,follow,noarchive”>

<<:  任意の長さの配列を作成または埋めるための JS のヒントの要約

>>:  nginx を最適化する 6 つの方法

推薦する

VUE でタブページを切り替える 4 つの方法

目次1. 静的実装方法: 2. 第2のシミュレーション動的方法3. 3番目の動的データ方式4. 動的...

HTMLの表のtbodyは上下左右にスライドできます

テーブル ヘッダーが固定されている場合は、それを 2 つのテーブルに分割する必要があります。1 つの...

ubuntu18.04 での qt5.12.8 のインストールと環境設定に関する詳細なチュートリアル

環境システム: Ubuntu 18.04ソフトウェア: qt5.12.8 1. インストールパッケー...

CSS はコンテナ レベル (div...) タグを 1 つの位置 (ページの右端) に固定します。

コードは次のようになります。 。プロセス{ 境界線:1px 実線 #B7B7B8; 背景:#F8F8...

MySQL エラー コード 1862 の解決方法: パスワードの有効期限が切れています

ブロガーは 1 ~ 2 か月間 MySQL を使用していませんでしたが、今日この問題に遭遇しました。...

MySQL データベース JDBC プログラミング (Java は MySQL に接続します)

目次1. データベースプログラミングの基本条件2. Java でのデータベースプログラミング: JD...

MySQLのレプリケーションの詳細な分析

1.MySQLレプリケーションの概念これは、プライマリ データベースの DDL および DML 操作...

MySQL 8.0.11 の詳細なインストール手順

この記事では、参考までにMySQL 8.0.11のインストール手順を紹介します。具体的な内容は次のと...

Vueのレスポンシブシステムの原理の詳細な説明

目次Vueのレスポンシブシステムの基本原則1. Object.definePropertyの使い方を...

HTMLウェブページの基本概念の簡単な分析

ウェブページとは何ですか? HTML ドキュメントがブラウザカーネルによってレンダリングされた後に表...

jsシミュレーションでJingdongの詳細ページで画像を拡大する効果を実現

この記事では、Jingdongの詳細ページの画像の拡大を実現するためのjsの具体的なコードを紹介しま...

フォームを送信した後、別のファイルに移動する

<br />質問:特定のファイルにジャンプするには、HTML でどのように記述すればよい...

Nginx Webサーバーのサンプルコードの設定方法の詳細な説明

概要今日は主に、NGINX を Web サーバーとして設定する方法を共有します。内容は次のとおりです...

MySQL 文字列分割の例 (区切り文字なしの文字列抽出)

区切り文字なしの文字列抽出質問の要件データベース内のフィールド値:実装効果: 1行のデータを複数行に...

Vue での mixin の応用について議論する

Mixin は、再利用可能な機能を Vue コンポーネント間で分散する非常に柔軟な方法を提供します。...