Robots.txt はプレーンテキスト ファイルであり、Web サイト管理者は、ロボットによるアクセスを禁止する Web サイトの一部を宣言したり、検索エンジンが特定のコンテンツのみをインデックスするように指定したりできます。 robots.txt の基本的な紹介 Robots.txt はプレーンテキスト ファイルであり、Web サイト管理者は、ロボットによるアクセスを禁止する Web サイトの一部を宣言したり、検索エンジンが特定のコンテンツのみをインデックスするように指定したりできます。 検索ロボット (検索スパイダーと呼ばれることもあります) がサイトを訪問すると、まずサイトのルート ディレクトリに robots.txt があるかどうかを確認します。存在する場合、検索ロボットはファイルの内容に応じてアクセス範囲を決定します。ファイルが存在しない場合、検索ロボットはリンクに沿ってクロールします。 さらに、robots.txt はサイトのルート ディレクトリに配置する必要があり、ファイル名はすべて小文字にする必要があります。 robots.txt の記述構文<br />まず、robots.txt の例を見てみましょう: http://www.csswebs.org/robots.txt 上記の特定のアドレスにアクセスすると、robots.txt の具体的な内容が次のように表示されます。 # http://www.csswebs.org の Robots.txt ファイル # すべてのロボットがドメインをスパイダーします ユーザーエージェント: * 許可しない: 上記のテキストは、すべての検索ロボットが www.csswebs.org サイトのすべてのファイルにアクセスできることを意味します。 特定の構文分析: # の後のテキストは説明情報です。User-agent: の後には検索ロボットの名前が続きます。* が続く場合は、すべての検索ロボットを参照します。Disallow: の後には、アクセスが許可されていないファイル ディレクトリが続きます。 以下に、robots.txt の具体的な使用例をいくつか挙げます。 すべてのロボットにアクセスを許可する ユーザーエージェント: * 許可しない: または、空のファイル「/robots.txt」を作成することもできます すべての検索エンジンがサイトのどの部分にアクセスできないようにブロックする ユーザーエージェント: * 許可しない: / すべての検索エンジンがサイトのいくつかのセクション(以下の例ではディレクトリ 01、02、03)にアクセスするのをブロックします。 ユーザーエージェント: * 禁止: /01/ 禁止: /02/ 許可しない: /03/ 検索エンジンへのアクセスをブロックする(下の例ではBadBot) ユーザーエージェント: BadBot 許可しない: / 特定の検索エンジン(以下の例ではクローラー)からのアクセスのみを許可する ユーザーエージェント: クローラー 許可しない: ユーザーエージェント: * 許可しない: / さらに、これを拡張してロボット メタを導入する必要があると考えています。 Robots META タグは主に特定のページを対象としています。他の META タグ (使用言語、ページの説明、キーワードなど) と同様に、Robots META タグもページの <head> </head> に配置され、特に検索エンジン ROBOTS にページのコンテンツをクロールする方法を伝えるために使用されます。 Robots META タグの書き方: Robots META タグでは大文字と小文字は区別されません。name="Robots" はすべての検索エンジンを意味し、特定の検索エンジンの場合は name="BaiduSpider" と記述できます。コンテンツ部分には、index、noindex、follow、nofollow の 4 つのコマンド オプションがあります。コマンドは「,」で区切られます。 INDEX ディレクティブは、検索ロボットにページをクロールするように指示します。 FOLLOW 命令は、検索ロボットがページ上のリンクに沿ってクロールを続行できることを示します。 Robots Meta タグのデフォルト値は INDEX と FOLLOW ですが、inktomi の場合、デフォルト値は INDEX、NOFOLLOW です。 したがって、組み合わせは次の 4 つになります。 <META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”> <META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW"> <META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”> <META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW"> このうち、<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”> は <META NAME=”ROBOTS” CONTENT=”ALL”> と記述できます。 <META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW"> は <META NAME="ROBOTS" CONTENT="NONE"> と記述できます。 現時点では、検索エンジンロボットの大半は robots.txt のルールに従っているようです。Robots META タグについては、現時点ではサポートがあまりありませんが、徐々に増えてきています。たとえば、有名な検索エンジン GOOGLE はこれを全面的にサポートしており、GOOGLE は Web ページのスナップショットを保持するかどうかを制限できるコマンド「archive」も追加しました。例えば: <META NAME=”googlebot” CONTENT=”index,follow,noarchive”> |
<<: 任意の長さの配列を作成または埋めるための JS のヒントの要約
WebページWB.ExecWB制御印刷方法コードをコピーコードは次のとおりです。 <テーブルの...
目次1. 一括更新の方法コンソール出力2. フックがルーティングパラメータを取得する方法実行効果1....
目次1. 基本2. 問題の説明3. 解決策付録: js を使用して Excel の日付形式を変換する...
天気予報をウェブサイトに挿入すると、次のような効果が得られます。次のコードを挿入する必要があります:...
目次背景1. dns-prefetch とは何ですか? 2. dns-prefetch を設定するに...
序文インターセプター最近のフロントエンド フレームワークでは、インターセプターは基本的に非常に基本的...
プロジェクト要件: 製品ツリー ノードをクリックすると、そのノードのすべての親ノードが取得され、表に...
クラウドサーバーを使用するとデータベースに接続できる場合もありますが、Navicat Premium...
手工芸デザインからグラフィックデザイン、そしてウェブデザインまで、デザインの原則は同じままですが、私...
CSS3はクールな3D回転パースペクティブを実現します3D アニメーション効果はますます人気が高まっ...
yumコマンドYum (フルネームは Yellow dog Updater, Modified) ...
導入面接官がこんな質問をしたことはありませんか?データベースをどのように最適化しますか?では、この質...
オーバーレイネットワーク分析組み込みのホスト間ネットワーク通信は、常に Docker の待望の機能で...
多くのウェブサイトのソースコードを確認すると、多くのコメントが見つかります。特に、ソース文書にコメン...
1. jdkダウンロードアドレスをダウンロードする我下載的是jdk-8u221-linux-x64....