COLUMNコラム
クローラーとは?概要とSEO対策に欠かせないクローラビリティを紹介
SEOの目的は「Web検索の結果にて自分のサイトを上位表示させる」ことです。この検索の上位表示に大きく関わっているのが「クローラー」です。よって、まずクローラーについて知っておくことがSEOを学ぶ上での基礎となります。
この記事ではSEO学習のために、クローラーの概要と、上位表示に欠かせないクローラビリティについて解説します。これからSEOの勉強を始める方はぜひ記事をご参照ください。
クローラーとは
クローラーとは、検索順位を決めるデータを収集するためにネットサイトを巡回しているロボットです。このデータを元に、検索アルゴリズムが上位表示するページを決めているため、クローラの概要について理解しておくことは、SEOを学ぶ上で重要なポイントです。ここでは、クローラーの仕組み、収集対象となるデータ、種類について解説します。
クローラーの仕組み
ネットを巡回しているクローラーは次の3つの工程を繰り返しています。
- クローリング(巡回)
- パーシング(解析)
- インデックス(登録)
クローラはネットをクローリング(巡回)してページにたどり着くと、それと同時に解析(パーシング)を行います。解析後に、ページ情報を順位付けしやすいデータに変換し、その結果をデータベースにインデックス(登録)します。また、解析でページ内にリンクを見つけていると、そのリンクをたどって巡回・解析・登録の工程を繰り返します。
これらの工程がスムーズに行えるページにするのもSEO対策の一環です。クローラーは、ページの巡回・解析・登録がスムーズであるほど訪れる頻度が高くなります。この頻度も検索順位に影響を及ぼします。
クローラーが対象とするデータ
クローラーは、HTTP/HTTPSで取得できるデータのすべてを認識することが可能です。そのため、クローラーが対象とするデータは、テキストファイルだけなく、画像や動画など多岐にわたります。具体的には以下のようなデータを収集しています。
- テキストファイル(HTML、CSS)
- 画像(GIF、JPEG、PNG、WebP、SVGなど)
- 動画(MP4、WebMなど)
- ドキュメントファイル(Word、Excel、PowerPointなど)
- JavaScript
- 音声
- その他のXML、XMLをベースとした RSS、KML などの形式を含まないXMLファイル
上記以外にも多数のファイル形式に対応しています。ちなみに、リクエストが失敗した場合、ファイル形式は不明となります。
クローラーの種類
クローラーは検索エンジンごとに種類が異なります。たとえばGoogleならGooglebot、中国のBaidu(百度)ならBaiduspiderといったようにです。そのため、クローラー対策を行う際は、各検索エンジンに合わせた施策を行う必要があります。
世界で検索エンジンのトップシェアを占めているのはGoogleです。Googleは日本でも80%以上のシェアを占めているため、国内でのクローラー対策のほとんどがGooglebotを対象としています。一方で中国では、Googleの使用が禁止されています。中国市場でSEO対策をする場合は、中国シェア1位の検索エンジン、Baidu(百度)のクローラーであるBaiduspiderを対象にした施策を考えなくてはならないでしょう。海外でクローラー対策を行う場合は、各国の検索エンジンのシェア率について留意する必要があります。国内外で代表的なクローラーは、以下の通りです。
- Googlebot:検索エンジンは世界シェア1位の「Google」
- Bingbot:検索エンジンは世界シェア2位、マイクロソフト社製「Bing」
- Baiduspider:検索エンジンは中国シェア1位の「Baidu(百度)」
- Yahoo Slurp:検索エンジンは世界シェア4位、日本国内シェア3位「Yahoo」
- Yetibot:検索エンジンは韓国シェア2位の「Naver」
SEO対策には「クローラビリティ」が欠かせない
先述したように、クローラーとSEO対策は密接な関係にあります。SEO対策とはクローラー対策でもあるのです。クローラーに対するサイトの最適化をクローラビリティといいます。クローラビリティを高める対策は大きく分けて2つあります。1つは「巡回を促すこと」、もう1つは「解析を助けること」です。ここからは、SEOの基礎となるクローラビリティを高める対策について解説していきます。
ページへの巡回を促すクローラビリティ
検索エンジンの評価対象になるためには、クローラーにページを巡回してもらわなければなりません。
ここではクローラーに巡回を促すための対策について解説します。
サイトマップの送信をする
サイトが評価対象になるために、XMLサイトマップを送信して、サイトの存在をクローラーに知らせましょう。開設して間もないサイトは、検索エンジンにまだ認識されていません。そのため、最初はクローラーに能動的にアプローチをする必要があります。サイトを発見してもらうために、まず検索エンジンにXMLサイトマップを送信しましょう。
ちなみに、XMLサイトマップとはクローラー向けのサイトマップです。サイト内に存在するページの一覧、各ページの更新頻度や更新日、URLの優先度などの情報が記述されています。これらの情報をクローラーに伝えるのは、SEO対策をする上で非常に重要です。XMLサイトマップは、ユーザー向けのHTMLサイトマップと混同されがちなので注意しましょう。
被リンクを得る
クローリングを増やすために、外部サイトから自サイトへのリンク(被リンク)を増やす施策を取りましょう。
被リンクにより、外部サイトから自サイトにクローリングされるため、クローラビリティの向上につながります。
また、被リンクは検索エンジンの評価を上げる意味でも有効な施策です。検索エンジンはサイトを評価する際、被リンクの量と質を重視しています。そのため、一般的には被リンクが増えるほど、サイトの評価は上がります。一方で注意しておきたいのは、被リンクの「質」も評価に含まれている点です。スパムサイトなど悪質なサイトからの被リンクは、逆にサイトの低評価につながります。量だけに気を取られないよう注意してください。
良質な被リンクを増やす施策を取って、クローラビリティと検索エンジンの評価を高めましょう。
内部リンクをつくる
発見しやすいサイトにするために、内部リンクを貼りましょう。
クローラーは基本的に「リンクをたどってサイトを発見」します。このリンクには、自サイト内のページをつなぐ内部リンクも含まれます。内部リンクは被リンクとは違い、能動的に貼ることが可能です。クローラビリティを高めるためにも作成しておきましょう。
とはいえ、やみくもに内部リンクを貼ればいいわけではありません。内部リンクの貼り方も検索エンジンの評価対象です。検索意図に合わせて、適度な数を適切な箇所に貼るよう心がけてください。
上手に内部リンクを貼って、クローラビリティと検索エンジンの評価を高めましょう。
ページ内の解析を助けるクローラビリティ
クローラーが巡回してくれても、サイトから検索順位に関わるデータを収集してくれなければ意味がありません。ここでは、クローラーのページ解析を補助する対策を解説します。
ページ階層は2クリック以下にする
クローリングされるために、ページ階層は2クリック以下で目的ページに到達できる構造を心がけましょう。2クリックとは、たとえば次のようなディレクトリ階層です。
トップページ:第一階層
カテゴリー:第二階層
記事などのコンテンツ:第三階層
この構成なら「トップページから2クリック以下」で目的のページに到達できます。
クローラーは浅い階層を優先して巡回します。階層が深くなるほど、重要度が低いページだと判断するからです。よって、何度もクリックしないとたどり着けないようなページは、インデックス(登録)されない可能性があります。いくら素晴らしい情報が掲載されていても、階層が深すぎてクローラーが到達できないのであれば評価の対象外です。このような事態に陥らないためにも、階層を最適化してクローラーがページ情報を取得しやすい構成を心がけましょう。
パンくずリストを設置する
Webサイト内には、クローラーの巡回を助けるパンくずリストを必ず設置しましょう。
パンくずリストとは、いま閲覧中のページがどの階層に位置しているか、どのような経路で現在のページにたどり着いたかを表示するナビゲーションパーツです。名前は童話「ヘンゼルとグレーテル」で兄妹が迷子にならないように通り道にパンくずを置いていったエピソードに由来します。
パンくずリストはユーザーに現階層・経路を知らせるだけでなく、クローラーの巡回を助ける役目もあります。クローラーにとってパンくずリストは、ページ構造を示したリンクです。リンクをたどってデータ収集を行うクローラーは、パンくずリストが設置されることでサイトの構造を理解しやすくなります。ユーザー、クローラーの双方にとって便利な案内板になるので、パンくずリストは必ず設置しましょう。
ナビゲーションメニューを設置する
ナビゲーションメニュー(グローバルナビゲーション)をテキストで設置しましょう。
ナビゲーションメニューとは、どのサイトでも見かけるページ内のメニューバーです。このメニューバーには、ユーザーがコンテンツを見つけやすくするだけでなく、クローラーの巡回を助ける役割もあります。
クローラーは画像よりテキストを優先して巡回する性質があります。そのため、ナビゲーションメニューをテキストで設置することがクローラビリティの向上につながります。
とはいえ、デザイン上の関係などでどうしてもメニューバーに画像を使いたいこともあるでしょう。そのような場合は、altタグを使ってメニュー内容を記述します。altタグ(alt属性)とは、画像を説明するためのhtmlコードのことです。画像でもaltタグを使って代替テキストを入力しておけば、クローラーはその意味を理解することができます。
ナビゲーションメニューはできるだけテキストでの作成を優先し、画像で設置する場合はaltタグを活用しましょう。
URLを正規化する
同サイト内に重複や類似したコンテンツがあったり、同じ内容のページに複数のURLが存在したりする場合、URLの正規化を行いましょう。
サイトに重複部分があると、クローラーが無駄な巡回をすることになります。また、検索エンジンはURLごとにページを評価するため、URLが異なるとページの評価が分散する可能性があります。さらに、内容が酷似していてミラーコンテンツと判断されれば、ペナルティを課せられる恐れもあります。
重複リスクを回避し、クローラビリティを向上させるためにも、類似コンテンツを統合してURLを正規化しましょう。
クローラーがサイトに来ているか確認する方法
クローラビリティを高める対策を行っても、サイトにクローラーが来ているかが確認できなければ、今後の方針が立てられないでしょう。ここでは、クローラーがサイトに来ているか確認する方法を2つ紹介します。
「site:検索」を使用
Googleの検索窓にURLを打ち込んで検索する確認方法です。具体的には検索窓に「site:確認したいサイトURL」を入力するだけでクローラーが来ているかがわかります。ツールを使わずお手軽に実行できる確認方法ですが、詳細まで確認できるわけではないので注意が必要です。詳細なデータを確認したい場合は後述するGoogle Serch Consoleを使う確認方法を利用しましょう。
「クロールの統計情報」を閲覧
Google Search Consoleにログインして、「クロールの統計情報」を閲覧します。Google Search Console内のメニューの「設定」から「クロールの統計情報」の項目を表示させ、「レポートを開く」をクリックすると閲覧できます。レポートではどれだけクロールされたか、頻度はどれくらいかが数値と線グラフで表示されています。この情報はSEO対策を行うサイト制作では必須です。ページの公開後は週1回を目安にして定期的に確認しましょう。
まとめ
Web検索で上位表示させるには、クローラーに発見してもらい、効率よくデータを収集してもらうことが前提です。この前提が満たされていないと、質の良いWebサイトを制作しても検索エンジンの評価を得られず、競合サイトの中で埋もれてしまいます。質の良いWebサイト制作は各分野ごとに創意工夫が必要ですが、クローラー対策に関してはどこでもほぼ共通です。これからSEOの勉強を始める方は、クローラーとクローラビリティについての理解を深めて基礎を固めておきましょう。