COLUMNコラム

クローラビリティとは?質の向上に役立つ手法や巡回状況を知る方法を解説

ライティング

googleをはじめとする検索エンジンは、インターネット上に存在する無数のwebサイトの中から、私たちが必要とするものを瞬時に探し出してくれます。それを可能としている要素の1つがクローラーであり、クローラビリティはクローラーの働きに関する言葉です。

この記事では、クローラビリティを向上させる手法などを解説します。

クローラビリティとは?

クローラビリティとは、webサイトでのクローラーの働きやすさを表す言葉です。これを高めることで、クローラーに自分のwebサイトの情報を余すところなく収集させることができます。

クローラーはインターネット上を日々巡回してwebサイトの情報を収集し、検索順位の決定するロボットです。

サイト運営をする際には、ユーザーはもちろんクローラーが情報収集しやすい構成や内容にするように心がけましょう。

クローラビリティと関係が深い2つの用語

ここでは、クローラビリティの関係が深い「クローラー」と「インデックス」についてそれぞれ詳しく解説します。

クローラーとは?

クローラーとは自律的にインターネット上を巡回するプログラムのことで、「ボット」や「スパイダー」とも呼ばれます。

検索エンジンで必要な情報を探し出せるように、訪れたwebサイトの情報でデータベースを作成することがクローラーの役割です。

インデックスとは?

クローラーがデータベースにwebサイトの情報を登録することを指す言葉がインデックスです。

インデックスにはwebページのコンテンツについての情報も含まれており、どのようなコンテンツか、動画や画像ファイルはどんなものかなどの分析結果も登録されます。

データベースに登録することで大量の情報を素早く活用出来るようになるため、検索エンジンで高速に目的のwebページを見つけることができるのです。

クローラビリティの改善が必要な理由

クローラビリティは、SEOとしても重要な要素です。webサイトが検索結果に表示されるには、インデックスされている必要があります。

しかし、クローラビリティが低いwebサイトでは一部のページしかインデックスされない等が起こり得るため、良いコンテンツが掲載されていたとしても集客を見込めなくなってしまいます。

クローラビリティの改善をしっかりと意識して、webサイトの隅々までインデックスされる様にしましょう。

クローラビリティの向上に役立つ手法12選

ここでは、クローラービリティの向上に役立つ12の手法についてそれぞれ詳しく解説します。

Googleにクロールを要請する

最も簡単な方法は、自分からクローラーを呼ぶことです。

googleは公式にgoogle serch consoleというwebサイト分析ツールをリリースしています。

このツールは、webサイトの表示回数や検索順位、改善点などを調査できますが、それに加えてURL検査ツールという機能が含まれています。このURL検査ツールを使うことで、クローラーに任意のURLのクロールをリクエストすることが可能です。

新しいコンテンツを公開したり、リライトを行った際には活用しましょう。

XMLサイトマップの送信や更新をする

XMLサイトマップとは、webサイトの地図のようなものです。人間もwebサイトのコンテンツ一覧を参考にすることがありますが、こちらはHTMLサイトマップと言います。

クローラーも人間と同様に参考とする地図が在ると、webサイトの構造を把握することが容易になるのです。インデックスにかかる時間が短縮されると、クローラビリティの向上に繋がります。

XMLサイトマップの作成は、自動生成ツールの利用が簡単です。

「sitemap.xml Editor」というツールであれば、web上からURLを入力するだけでXMLサイトマップを生成することができます。

作成したXMLサイトマップは Google Search Consoleから登録しておくことで、クローラーが利用出来るようになります。

また、webサーバーのルートディレクトリにXMLサイトマップをアップロードした上で、robots.txtにその所在を記載することでもクローラーがXMLマップを利用できます。

内部リンクの最適化を図る

内部リンクは同じwebサイトに属するコンテンツ同士を繋げるリンクのことを指します。

クローラーは人間と同様にwebサイト内のリンクを辿ることでクロールを行うため、内部リンクを適切に設置すればクローラビリティとユーザビリティ両方の向上が可能です。

ただし、むやみに内部リンクを増やすと、SEO上の評価が落ちることにも繋がります。内部リンクは関係性の高いコンテンツの間に設置する様にしましょう。

パンくずリストの設定

パンくずリストはwebサイトのtopページから見て、現在地がどこかを示すものです。名称はグリム童話のヘンゼルとグレーテルが由来になります。

「TOP>クローラビリティ>パンくずリスト」の様に表示され、各要素をリンクにすることが重要です。リンク化により関連ページへの移動が簡単になるため、クローラビリティとユーザビリティの向上が望めます。

ディレクトリの階層を浅くする

クローラーは、webサイトの浅い階層からクロールします。

しかし、クローラーが一つのwebサイトでインデックスする数には限りがあり、あまりに深い場所にあるコンテンツはインデックスされない可能性があります。Google によると、3~4階層程度であれば気にする必要はないとのことなので、可能な限りその範囲内で収めるようにしましょう。

不要なページをなくす

低品質なページが残っていると、注力したページをインデックスする前にクローラーが離脱してしまうかもしれません。

コンテンツは定期的にリライトや非公開設定にして、サイトの品質を上げましょう。

一度書いた記事は削除するよりは非公開設定にすることがおすすめです。書いた内容は他の記事にも転用することができるので、特別な理由がない限りは非公開設定にしましょう。

ファイルサイズを調整する

コンテンツ上の画像や動画などファイルサイズが大きいと、ページの表示速度が遅くなる可能性があります。クローラーは効率よくインデックスを行うために、表示速度の遅いwebサイトからは早めに離脱するためです。

ページの表示速度を早めるためには、コンテンツ内のファイルを適切なサイズに圧縮しましょう。

複数のURLはひとつにまとめる

URL内の「www」の有無に関係なく同じコンテンツにアクセスできる状態は、重複URLとみなされクロール頻度が減少します。重複URLがある場合は、URLを正規化しましょう。

URLの正規化方法には、ページのコードでcanonicalタグを用いて正規URLを指定する方法と、301リダイレクトを使用する方法があります。

HTTPステータスコードを正しく返す

HTTPステータスコードとは、ユーザーからの要求に対してサーバーから返信される3桁の数字コードです。200(正常なレスポンス)や301(恒久的な転送)、404(異常なレスポンス)などが代表的です。

クローラーはこのHTTPステータスコードでwebページの状態を判断しています。つまり、コードによって誤った判断がなされる可能性があるので注意してください。

例えば、削除したページで200を返してしまうと、クローラーは削除された状態を正常なものとして認識します。そうすると、低品質のコンテンツであると判断されるとともに、クローラーが無駄なコンテンツをインデックスしてしまうために必要なコンテンツをインデックスしないこともあり得ます。

HTTPコードは正しいものを返せるように適宜確認しておきましょう。

クロールの拒否設定も行う

robots.txtでは、個別のコンテンツに対するクロールを拒否できます。

pdfファイルや会員用ページなど、重要性が低いページのクロールを拒否することで、重要なコンテンツがインデックスされやすくなります。

コンテンツの質を高める

コンテンツの質を高めること=クローラビリティを高めることです。

ユーザーニーズを汲むコンテンツを作成することで、クローラーからも認識しやすいサイトや記事に仕上がります。

無駄な文章やニーズと違うコンテンツが混ざっていると低品質コンテンツと判断されてしまうため注意が必要です。

質の良い被リンクを獲得する

クローラーはリンクを辿って探索を行うため、被リンクが増えるとクロール頻度が増えます。

ただし、低品質サイトからの被リンクは、自分のwebサイトの低評価にもつながります。被リンクは相互リンクにより意図的に獲得することができますが、むやみに増やさないようにしましょう。

クローラーの巡回の有無を知る方法

クローラビリティを高める施策を行っても、実際にクローラーが巡回したかが分からないと効果が有ったのか分かりません。

ここでは、クローラーが巡回したことを確認する手法をいくつかご紹介します。

Googleサーチコンソールを使用する

google search consoleの設定ページでは、クロールの統計情報を確認することができます。1日にクロールされたページの数やダウンロード量、平均応答時間やクロール数のグラフが表示されます。

「site:検索」を使用する

googleで「site:」の後にURL付けて検索をすると、インデックスの有無を確認できます。
ページが表示された場合は、クローラー巡回済みです。

ただし、クロールはページの更新や公開後から数日かかることが一般的となります。

キャッシュを確認してみる

googleの検索結果にはURLが表示されます。そのURLの右側にあるボタンから、URLのページを保存したキャッシュを確認することが可能です。

ページの上部に表示されたキャッシュの取得日を確認することで、いつクローラーが訪れたかが分かります。

クローラビリティでよくある質問

ここでは、クローラービリティ関連でよくある質問について詳しく解説します。

クロールバジェットとは?

クロールバジェットは、1つのwebサイトに対してクローラーが訪れることができるURLの上限数のことです。

上限数は、コンテンツの品質や表示速度によって上下します。ただし、webサイト内のURLが数千もなければ、気にする必要はありません。

意識するのはGoogleだけで良いの?

クローラーはgoogleのほかにもbingのものなど、複数存在します。

しかし、googleだけで国内シェア7割と圧倒的であるため、日本ではgoogleのみ意識すれば問題ありません。

クローラビリティはSEO対策で重要?

新しいコンテンツは、まずクロールされないと検索結果に表示されません。

そのため、SEO対策からみてもクローラビリティは重要な要素だと言えるでしょう。

まとめ

ここまでクローラビリティについて解説しましたが、いかがだったでしょうか。

クローラーにwebサイトを巡回してもらえないと、いくら良いコンテンツを作成しても意味がありません。

クローラビリティを向上させてクローラーを呼び込み、より多くの記事を検索結果に表示させられるようにしましょう。