Robots.txt およびサイトマップの管理

[アーティクル]
03/01/2010

公開日: 2009 年 6 月 3 日 (作業者: ruslany (英語)

更新日: 2009 年 9 月 24 日 (作業者: ruslany (英語))

IIS Search Engine Optimization Toolkit には、Web サイト用の robots.txt ファイルの内容を管理するための Robots Exclusion 機能と、サイトのサイトマップを管理するための Sitemaps and Sitemap Indexes 機能が用意されています。このチュートリアルでは、これらの機能の使用方法とその用途について説明します。

背景

検索エンジンクローラーが 1 つの Web サイトに対して消費できる時間とリソースは限られています。したがって、以下の対応を行うことが重要です。

重要ではないページや検索結果ページに表示されるべきではないページのインデックスをクローラーが作成しないようにします。
インデックス作成対象として最も重要なコンテンツにクローラーがアクセスするようにします。

こうした対応を行うためのプロトコルとして、ロボット排除プロトコル(英語)とサイトマッププロトコル(英語)の 2 つがあります。

ロボット排除プロトコルは、検索エンジンクローラーが Web サイトのクロール時に "要求してはならない" URL を指定するために使用します。排除に関する指示は、Web サイトのルートに置く robots.txt という名前のファイルに含めます。検索エンジンクローラーの多くはこのファイルを探して、その指示に従います。

サイトマッププロトコルは、Web サイトのクロールしてもよい URL を検索エンジンクローラーに知らせるために使用します。また、サイトマップは、URL に関するメタデータ (最終更新日時、更新頻度、相対優先度など) の提供に使用します。検索エンジンが Web サイトのインデックス作成の際にこれらのメタデータを使用する場合があります。

必要条件

1. Web サイトまたは Web アプリケーションのセットアップ

このチュートリアルを完了するには、IIS 7 でホストされた Web サイトまたは Web アプリケーションが必要です。どちらもない場合は、「Microsoft Web アプリケーションギャラリー」からすぐにダウンロードして入手できます。このチュートリアルでは、人気のあるブログアプリケーション DasBlog を使用しています。

2. Web サイトの分析

Web サイトまたは Web アプリケーションが準備できたら、代表的な検索エンジンがサイトのコンテンツをクロールする方法を理解するために分析を行います。分析を行うには、記事「Site Analysis を使用した Web サイトのクロール」および「Site Analysis のレポートの使用」に示されている手順に従います。分析によって、検索エンジンによるクロールの対象である URL の中に、クロールやインデックス作成を行うメリットがない URL があることがわかります。たとえば、ログインページやリソースページに検索エンジンクローラーがアクセスする必要はありません。これらの URL を robots.txt ファイルに追加し、検索エンジンによって表示されないようにします。

robots.txt ファイルの管理

Robots Exclusion 機能は、robots.txt ファイルの作成に使用します。robots.txt ファイルを使って、Web サイト内のクロールおよびインデックス作成が不要な箇所を検索エンジンに指示します。以下に、このツールの使用方法の手順を説明します。

[スタート] メニューに「INETMGR」と入力して、IIS 管理コンソールを開きます。
左側のツリービューを使用して Web サイト (Default Web Seite など) に移動します。
[管理] セクションの [検索エンジンの最適化] アイコンをクリックします。
SEO のメインページで、[ロボット排除] セクションの [新しい Disallow ルールの追加] タスクリンクをクリックします。

Disallow ルールおよび Allow ルールの追加

[Disallow ルールの追加] ダイアログが自動的に開かれます。

Ff454149.637_IISSEO54(ja-jp,TechNet.10).png

ロボット排除プロトコルは、"Allow" ディレクティブおよび "Disallow" ディレクティブを使用して、クロール対象の URL とクロール対象ではない URL を検索エンジンに伝えます。これらのディレクティブは、すべての検索エンジンに対して指定したり、user-agent HTTP ヘッダーから識別した特定のユーザーエージェントに対して指定したりできます。[Disallow ルールの追加] ダイアログの [ロボット (ユーザーエージェント)] フィールドにクローラーのユーザーエージェント情報を入力して、ディレクティブを適用する検索エンジンクローラーを指定できます。

[URL パス] ツリービューを使用して、アクセスを拒否する URL を選択します。URL パスを選択する際に、[URL 構造] ドロップダウンリストからさまざまなオプションを選択できます。

[物理的な場所] - Web サイトの物理ファイルシステムレイアウトからパスを選択できます。
[サイト分析から (<分析名>)] - Site Analysis ツールによるサイト分析によって判明した仮想 URL 構造からパスを選択できます。
[<新しいサイト分析を実行>] - 新たにサイト分析を実行して、Web サイトの仮想 URL 構造を取得し、URL パスを選択できます。

「必要条件」セクションで説明した手順を完了している場合は、すぐにサイト分析を使用できます。ドロップダウンリストから分析を選択し、[URL パス] ツリービューで、検索エンジンによって表示されないようにしたい URL のチェックボックスをオンにします。

Ff454149.637_IISSEO55(ja-jp,TechNet.10).png

アクセスを拒否したいディレクトリやファイルをすべて選択したら、[OK] をクリックします。メインの [機能ビュー] にアクセスを拒否するディレクトリやファイルが表示されます。

Ff454149.637_IISSEO56(ja-jp,TechNet.10).png

また、サイトの robots.txt ファイルも更新されます (存在しない場合は新たに作成されます)。その内容は次のようになります。

User-agent: *
Disallow: /EditConfig.aspx
Disallow: /EditService.asmx/
Disallow: /images/
Disallow: /Login.aspx
Disallow: /scripts/
Disallow: /SyndicationService.asmx/

robots.txt の動作を検証するには、Site Analysis 機能に戻ってサイトの分析を再実行します。レポートの概要ページで、[リンク] カテゴリをクリックし、[robots.txt でブロックされているリンク] レポートをクリックします。このレポートには、先ほど作成した robots.txt ファイルでアクセスを拒否したため、クロールされなかったリンクがすべて表示されます。

Ff454149.637_SEO_linksanalysis(ja-jp,TechNet.10).png

サイトマップファイルの管理

Sitemaps and Sitemap Indexes 機能は、Web サイトのサイトマップを作成し、クロールおよびインデックス作成の対象ページを検索エンジンに伝えるために使用します。以下に、このツールの使用方法の手順を説明します。

[スタート] メニューに「INETMGR」と入力して、IIS 管理コンソールを開きます。
左側のツリービューを使用して Web サイトに移動します。
[管理] セクションの [検索エンジンの最適化] アイコンをクリックします。
SEO のメインページで、[Sitemaps and Sitemap Indexes] セクションの [新しいサイトマップを作成] タスクリンクをクリックします。
[新しいサイトマップ] ダイアログが自動的に開きます。
[サイトマップ] ページで、[URL の追加] をクリックします。

サイトマップへの URL の追加

[URL の追加] ダイアログは次のように表示されます。

Ff454149.637_IISSEO510(ja-jp,TechNet.10).png

サイトマップファイルは、基本的に、URL とメタデータ (更新頻度、最終更新日時、相対優先度など) を羅列した単純な XML ファイルです。[URL の追加] ダイアログを使用して、新しい URL をサイトマップ XML ファイルに追加します。サイトマップ内の各 URL は、完全修飾 URL 形式 (プロトコル接頭辞やドメイン名などが含まれていることが必須) でなければなりません。したがって、まず最初に、サイトマップに追加する URL にどのドメインを使用するのかを指定する必要があります。

[URL パス] ツリービューを使用して、サイトマップに追加する URL を選択します。[URL 構造] ドロップダウンリストからオプションを選択できます。

[物理的な場所] - Web サイトの物理ファイルシステムレイアウトから URL を選択できます。
[サイト分析から (<分析名>)] - Site Analysis ツールによるサイト分析によって判明した仮想 URL 構造からパスを選択できます。
[<新しいサイト分析を実行>] - 新たにサイト分析を実行して、Web サイトの仮想 URL 構造を取得し、URL パスを選択できます。

「必要条件」セクションで説明した手順を完了している場合は、すぐにサイト分析を使用できます。ドロップダウンリストから分析を選択し、サイトマップに追加したい URL のチェックボックスをオンにします。

必要に応じて、[更新頻度]、[最終変更日時]、[優先度] オプションを変更し、[OK] をクリックして URL をサイトマップに追加します。sitemap.xml ファイルが更新されます (存在しない場合は新たに作成されます)。以下のような内容になります。

<urlset>
  <url>
    <loc>http://myblog/2009/03/11/CongratulationsYouveInstalledDasBlogWithWebDeploy.aspx</loc>
    <lastmod>2009-06-03T16:05:02</lastmod>
    <changefreq>weekly</changefreq>
    <priority>0.5</priority>
  </url>
  <url>
    <loc>http://myblog/2009/06/02/ASPNETAndURLRewriting.aspx</loc>
    <lastmod>2009-06-03T16:05:01</lastmod>
    <changefreq>weekly</changefreq>
    <priority>0.5</priority>
  </url>
</urlset>

robots.txt へのサイトマップの場所の追加

サイトマップの作成が完了したので、検索エンジンにサイトマップの場所を通知してすぐに使用できるようにします。サイトマップの場所の URL を robots.txt ファイルに追加するのが最も簡単です。

Sitemaps and Sitemap Indexes の [機能ビュー] で、先ほど作成したサイトマップを選択し、[Robots.txt に追加] をクリックします。

Ff454149.637_IISSEO511(ja-jp,TechNet.10).png

次のような内容の robots.txt ファイルが作成されます。

User-agent: *
Disallow: /EditService.asmx/
Disallow: /images/
Disallow: /scripts/
Disallow: /SyndicationService.asmx/
Disallow: /EditConfig.aspx
Disallow: /Login.aspx

Sitemap: http://myblog/sitemap.xml

検索エンジンへのサイトマップの登録

サイトマップの場所を robots.txt ファイルに追加することに加え、サイトマップがある場所の URL を主要な検索エンジンに登録することをお勧めします。こうすることで、検索エンジンの Web 管理者用ツールから Web サイトのステータスや統計といった有用な情報を取得できます。

bing.com にサイトマップを登録するには、Bing ウェブマスターツール (英語) を使用してください。
google.com にサイトマップを登録するには、Google ウェブマスターツールを使用してください。

まとめ

このチュートリアルでは、IIS Search Engine Optimization Toolkit の Robots Exclusion 機能および Sitemaps and Sitemap Indexes 機能を使用して Web サイトの robots.txt およびサイトマップファイルを管理する方法について説明しました。IIS Search Engine Optimization Toolkit に用意されている統合ツールセットを使用すれば、検索エンジン向けに robots.txt ファイルやサイトマップを準備したり、その正確性を検証することができます。

Robots.txt およびサイト マップの管理

背景

必要条件

1. Web サイトまたは Web アプリケーションのセットアップ

2. Web サイトの分析

robots.txt ファイルの管理

Disallow ルールおよび Allow ルールの追加

サイト マップ ファイルの管理

サイト マップへの URL の追加

robots.txt へのサイト マップの場所の追加

検索エンジンへのサイト マップの登録

まとめ

その他のリソース

Robots.txt およびサイトマップの管理

サイトマップファイルの管理

サイトマップへの URL の追加

robots.txt へのサイトマップの場所の追加

検索エンジンへのサイトマップの登録