Site Analysis を使用した Web サイトのクロール

公開日: 2009 年 6 月 3 日 (作業者: pharr (英語))

更新日: 2009 年 9 月 24 日 (作業者: pharr (英語))

IIS Site Analysis は、Search Engine Optimization Toolkit 内に含まれるツールで、検索エンジン クローラー向けにサイトのコンテンツ、構造、URL を最適化することを目的とした Web サイト分析に使用できます。また、このツールを使って、サイトを訪問するユーザーのユーザーのエクスペリエンスに悪影響を及ぼすサイト コンテンツによく見られる問題を発見して修復することができます。IIS Site Analysis には、サイト分析用にコンテンツをダウンロードできるように、サイトで公開されているすべてのリンクやリソースをクロールする Web クローラーが含まれています。

Web サイトのクロール

Web サイトの分析では、まず最初に、Web サイトで公開されているすべてのリソースおよび URL をクロールします。新たにサイトの分析を行う必要が生じた場合は、IIS Site Analysis ツールを使ってこの処理を実行します。IIS Site Analysis を使用して Web サイトのクロールや分析用データの収集を行うには、以下の手順に従います。

  1. [スタート]、[プログラム]、[IIS 7 拡張機能] の順にクリックし、[Search Engine Optimization (SEO) Toolkit] アイコンをクリックして、SEO ツールを起動します。

  2. SEO のメイン ページが自動的に開きます。

  3. [Site Analysis] セクション内の [新しい分析の作成] タスク リンクをクリックします。

    Ff454152.640_SEO_homepage(ja-jp,TechNet.10).png

  4. [新しい分析] ダイアログ ボックスで、分析レポートを一意に識別する名前を入力します。クロールを開始する URL も入力します。

    Ff454152.640_SEO_NewAnalysis(ja-jp,TechNet.10).png

    コンピューター上で特定の Web サイトを選択しなかったため、インターネットでアクセス可能なすべての公開 Web サイトをクロールできます。[新しい分析] ダイアログ ボックスの詳細については、「Web クローラーの設定」のセクションを参照してください。

  5. すべてのパラメーターを指定したら、[OK] をクリックして分析を開始します。

    Ff454152.640_SEO_StartAnalysis(ja-jp,TechNet.10).png

    分析中に、次の 2 つの数値が報告されます。

    • [処理済みリンク数] - Web クローラーによってクロールまたはダウンロードされたリンクの総数です。
    • [総リンク数] - Web サイトのクロール中に見つかったリンクの総数です。

メモ: Web クローラーは、常にクライアント コンピューター上で実行されます。リモート IIS サーバーに接続して新しい分析を開始する場合、Web クローラーは、リモート IIS サーバーに接続しているコンピューター上で実行される IIS マネージャー プロセス (InetMgr.exe) 内でホストされます。また、収集したデータやキャッシュした Web コンテンツはすべてクライアント コンピューターのファイル システムに保存されます。

Web サイトのクロールおよび分析が完了したら、[分析の概要] ビューが表示されます。SEO のサイトおよびコンテンツ特有の問題を分析する方法の詳細については、「Site Analysis レポートの使用」の記事を参照してください。

Web クローラーの設定

Web クロールを開始して新たに分析を行うにあたって、その他に次のパラメーターを指定できます。

  • [最大リンク数] - Web サイトのクロール中に処理/ダウンロードを行う一意なリンクの数を制御します。リンクとは、ハイパーリンクやイメージ ファイル、CSS ファイル、JavaScript ファイルへの参照など、ページのマークアップ内で使用される任意の URL を指します。この数値を大きくするとレポート ファイルのサイズが増加し、クローリング処理の実行時間が長くなります。
  • [リンクあたりの最大ダウンロード サイズ] - 1 リンクあたりのダウンロード可能なコンテンツのサイズ (KB) を制御します。この数値を大きくすると、Site Analysis によってローカル ファイル システム上に保存されるキャッシュ コンテンツのサイズが増加します。
  • ["nofollow" 属性を無視] - "nofollow" 属性と "nofollow" メタ タグ (英語) を使用して、ページ内の特定のハイパーリンクまたはすべてのハイパーリンクを追跡しないように検索エンジン クローラーに指示します。これは、ブログのコメント欄のスパムを防止する手段として使用されています。サイトのページでこの属性が使用されている場合、そのページ上のハイパーリンクは既定で処理/分析の対象外となります。イメージ ファイル、CSS ファイル、JavaScript ファイルなどのリソースへのリンクは処理されます。この属性を使用しているハイパーリンクもすべて分析する必要がある場合は、この設定を使用して、サイト分析用データの収集時に "nofollow" 属性およびメタ タグを無視するように指定します。
  • ["noindex" メタ タグを無視] - "noindex" タグ (英語) を使用して、ページのコンテンツのインデックスを作成しないように検索エンジン クローラーに指示します。サイトのページでこのメタ タグが使用されている場合、ページのコンテンツに違反があるかどうかについて既定で検索されなくなります。この属性を使用しているページのコンテンツを分析する必要がある場合は、この設定を使用して、サイト分析用データの収集/処理時に "noindex" メタ タグを無視するように指定します。
  • [外部リンク] - このドロップダウン リストは、Web サイトにサブドメインがある場合や、サイト内の特定のディレクトリ上で分析を実行する必要がある場合に使用できます。この設定は、サブドメインやサブディレクトリを外部リンクまたは内部リンクとして扱うよう指定します。

また、次の一般設定を使用して Web クローラーを構成できます。

  • [最大同時要求数] - Web クローラーによって実行される同時要求の数を制御します。
  • [レポートの場所] - すべてのクロールされたデータおよびキャッシュされた Web サイト コンテンツが保存されるローカル ファイル システム上のディレクトリを指定します。

IIS Site Analysis の Web クローラーのブロック

IIS Site Analysis の Web クローラーによって実行された HTTP 要求の "User-Agent" ヘッダーは、すべて次のように設定されています。

"iisbot/1.0 (+https://www.iis.net/iisbot.html)"

IIS Site Analysis の Web クローラーは、ロボット排除プロトコル (英語) に完全準拠しています。つまり、robots.txt ファイルを使用すれば、自分の Web サイトが IIS Site Analysis の Web クローラーによってクロールされるのを防止できます。たとえば、この機能を使用して、他のユーザーが自分の Web サイトに対して IIS Site Analysis を実行できないようにすることができます。

IIS Site Analysis の Web クローラーによって自分の Web サイトがクロールされないようにするには、サイトのルート ディレクトリにある robots.txt ファイルの最後に次の行を追加します。

User-Agent: iisbot
Disallow: /

まとめ

これで、Web サイトをクロールして、サイトのコンテンツおよび構造に関するデータの収集を行うように IIS Site Analysis を正しく構成することができました。Site Analysis レポートを使用して、収集データを分析する方法については、「Site Analysis レポートの使用」を参照してください。