検索エンジンのクローラーって何なの?種類や拒否方法などを紹介

SEOのことを考える際、検索エンジンのクローラーが重要です。

ただ、どのようなものなのか分からない方もいるかもしれません。

そこで今回は、検索エンジンのクローラーにおける基本情報や確認方法、クローラーの巡回を促すためのポイントなどを紹介します。

目次

クローラーの基本情報

そもそもクローラーとは、Web上のページを自動的に収集するプログラムのことであり、検索エンジンやアクセス解析ツールなどで使われることがあります。

クローラーは、Webページを収集するために特定のURLを開いて、そのページ内に含まれるリンクを辿り、新たなURLを見つけ出すというプロセスを繰り返します。

これにより、クローラーはWeb上にある多数のページを収集することが可能です。

クローラーは、Webページを収集する際、そのWebページ内に含まれるテキストや画像などのコンテンツを収集することもあります。

検索エンジンやアクセス解析ツールにとっては、クローラーを使用することでWeb上にある情報を効率的に収集することができるため、重宝されている存在です。

なお、クローラーはボットやロボット、スパイダーと呼ばれることもあります。

クローラーの種類

クローラーには、いくつかの種類があります。

主なものとしては、以下のとおりです。

  • Googlebot
  • Bingbot
  • Baiduspider
  • ManifoldCF
  • AppleBot

基本的にクローラーは、検索エンジンごとに用意されています。

例えばGooglebotはGoogleのクローラーで、Baiduspiderは中国の検索エンジンである百度のクローラーです。

特にGoogleのクローラーの場合はGooglebotからさらに細かく分かれており、画像用のGooglebotやニュース用のGooglebot、動画用のGooglebotなどがあります。

Googleの場合は公式サイトで表にまとめて紹介しているため、さらに詳しく知りたい方は以下のリンク先をチェックしてみてください。

Googleクローラーの概要

クローラーが巡回する頻度

クローラーが巡回する頻度は決まっているわけではなく、さまざまな要因によって異なります。

要因として、3つ挙げられます。

クローラーが属する検索エンジンやサービス

Googleのような一般的な検索エンジンのクローラーの場合、Webサイトの更新回数が多いほど、巡回する回数も多くなる可能性があります。

また、Webサイトへのアクセスも重要で、よくアクセスされているWebサイトほど巡回する頻度も高まる傾向です。

ほかにも、Webサイト内にあるリンクの数やWebサイト内のページ数にも影響されます。

Webサイト内に多くのページやリンクがあるほど、クローラーはより頻繁に巡回しやすくなります。

Webサイト側によるクローラーへの設定

Webサイトでは、クローラーに対してのアクセス制限が可能です。

制限するケースやアクセスを拒否する方法は別の項目で紹介しますが、何らかの設定でクローラーのアクセスが許可されていない場合、そのWebサイトやWebページを巡回することはありません。

その他

クローラーが巡回する頻度は、上記で挙げたものだけではありません。

その他の要因として、クローラーが使われているサーバーのスペックや、クローラーのプログラム設計なども影響します。

検索エンジンのクロールを確認する方法

検索エンジンのクローラーの巡回を確認する方法としては、Google Search Consoleを使うのがおすすめです。

Search ConsoleとはGoogleが提供するWebマスター向けのツールであり、Webサイトの掲載順位や検索キーワードの表示回数などを調べられます。

Search Consoleを使うことで、クローラーによるアクセス状況や、クローラーがアクセスできないページの有無などを確認できます。

Search ConsoleはGoogleアカウントさえ持っていれば無料で使えます。

もしまだGoogle Search Consoleを使ったことがないのであれば、この機会に使ってみると良いでしょう。

Google Search Console

クローラーの巡回を促すためのポイント

クローラーの巡回の頻度を増やすためには、さまざま方法があります。

  • XMLサイトマップを作って送る
  • Webページの質を高める
  • URLを長くしない
  • SSLを適用させる
  • コンテンツを重複させない
  • パンくずリストを設ける
  • 適切に内部リンクを設置する
  • ソフト404エラーを起こさないようにする
  • ファイルのクロールを防ぐ

それぞれどのようなものなのか、1つずつ紹介します。

XMLサイトマップを作って送る

XMLサイトマップとは、Webサイト内のページやリンク情報をXML形式でまとめたものであり、Webサイトを検索エンジンによるクローラーがより効率的に巡回するために使われます。

XMLサイトマップを作成することにより、Webサイト内のページやリンクを検索エンジンによるクローラーがより早く発見することができるようになります。

また、Webサイトのページやリンクが検索結果でどのように表示されるかをより細かく制御することも可能です。

XMLサイトマップを作る方法はさまざまあり、WordPressのプラグインを使った方法や自動作成ツールを使った方法などが挙げられます。

例としてWordPressのプラグインならば、XML Sitemapsを使うことでXMLサイトマップを作れます。

作ったらGoogle Search Consoleを使ってGoogleへ送信しましょう。

Webページの質を高める

Webページの質を高めることは、SEOだけではなくクロールの巡回を促す際にも重要です。

検索クエリとの関係性を高めつつ、きちんとクロールされそうな質の高いWebページを作ることにより、クロールしてもらいやすくなります。

その上、質の高いWebページというのはユーザーが求めているニーズも汲み取られていることから、多くのユーザーに信頼してもらいやすくなるというメリットもあります。

そうなれば、被リンクを獲得できたりSNSで拡散してもらえたりなどの効果も受けられるでしょう。

URLを長くしない

Webページを新たに増やす際、内容だけではなくURLもチェックしておきましょう。

あまりにも長いURLは、クロールの際に問題が生じる恐れがあります。

そうなるときちんと評価してもらえなくなってしまう恐れがあるため、できる限り簡潔にまとめましょう。

なお、URLのことを考える際にはパーマリンクも重要になります。

パーマリンクに関しては以下の記事で詳しく紹介しているため、気になる方はぜひ読んでみてください。

あわせて読みたい
パーマリンクとは?SEOとの関係性や注意点を解説! パーマリンクはWebサイトの規模が大きくなるほど、各記事がどのようなものなのか把握しやすくなるため、重要なものとなります。 ただ、Webサイトを持ったことがない方に...

SSLを適用させる

SSLはSecure Socket Layerの略称であり、インターネット上で送受信するデータを暗号化する仕組みの1つです。

暗号化することで、第三者からデータを盗聴されたり改ざんされたりするリスクを減らせます。

基本的にSSLは多くの企業や団体のサイトで適用されており、上位表示サイトもSSL化されているケースがほとんどです。

クロールの巡回を促すだけではなく、自分のWebサイトを守るためにも、SSL化をしておきましょう。

コンテンツを重複させない

コンテンツが重複していると、クローラーからの評価が下がってしまう恐れがあります。

基本的にコンテンツは他のコンテンツと被らないようにすべきですが、どうしても被ってしまうのであれば、canonicalタグやサイトマップなどを活用し、正規URLを検索エンジン側に伝えましょう。

そうすることで、一方のコンテンツのURLが正規のURLだとクローラーが理解し、重複コンテンツとして評価が下がってしまうことを防ぎやすくなります。

パンくずリストを設ける

そもそもパンくずリストとは、WebサイトやWebアプリケーションでユーザーが現在いるページがサイト内のどの位置にあるかを示すナビゲーション機能のことです。

具体的には、「トップページ > カテゴリページ > 記事ページ」というように現在のページがどのような階層にあるのか示します。

別の項目で紹介したように、検索エンジンのクローラーはリンクをたどってWebサイトを巡回しています。

その際にパンくずリストがあると、スムーズにWebサイト内をクロールしてもらいやすくなるのです。

その上、ユーザビリティの工場にもつながるため、SEOのことを考えるのであれば、必ず設定しておくようにしましょう。

適切に内部リンクを設置する

クロールしてもらいやすくするためには、内部リンクの最適化も重要です。

内部リンクが適切に設置されていれば、関連記事同士をリンクでつなげることができ、クローラーの巡回もスムーズになります。

ただ、あくまで適切な設置が重要であるため、闇雲に設置すれば良いというわけではありません。

きちんとコンテンツの内容に沿った内部リンクを設置するようにしましょう。

ソフト404エラーを起こさないようにする

ソフト404エラーとは、あるWebページにアクセスした際、実際にはそのページがあるにも関わらず、ページが見つからないときのエラーである「404 Not Found」が表示されるエラーのことです。

通常、ユーザーがWebサイトにアクセスすると、サーバーはリクエストされたページが存在するかどうかを確認します。

存在する場合はそのページを返しますが、リクエストされたページが存在しない場合はHTTPステータスコードである「404 Not Found」を返します。

ソフト404エラーはページがあるのに「404 Not Found」が返されることであり、このようなエラーはクローラーがWebサイトを巡回する上での効率性を下げてしまいます。

そのため、クローラーの巡回を促すためにはソフト404エラーがないことが重要です。

ファイルのクロールを防ぐ

検索エンジンのクローラーはHTMLをメインに読み取るため、複雑な構造であるPDFのようなファイルは苦手としています。

そのため、クローラーを促すためには重要度が低いファイルのクロールを拒否するように設定するのがおすすめです。

PDF以外にも、WordやPowerPointのファイルや決済ページなども重要度が低いため、クロールされてしまうことを防ぎましょう。

なお、PDFのSEO対策に関しては、以下の記事で紹介しています。

あわせて読みたい
PDFのSEO対策|必ず押さえたい6つのポイントとは? SEOと聞くと、WebページやYouTubeの動画に対して行うイメージがあるかもしれません。 確かに双方ともSEO対策を行いますが、PDFファイルに対してもSEO対策を行えることを...

検索エンジンのクローラーを拒否する方法

検索エンジンのクローラーに対して、全てのWebページをクロールしてもらうよう促すのはおすすめできません。

理由は、Webページによってはクローラーから低評価されてしまう恐れがあるためです。

そこで最後の項目では、検索エンジンのクローラーを拒否する方法を紹介します。

そもそもどんなページを拒否すればいいの?

クロールを拒否したほうが良いページとしては、以下のようなものが挙げられます。

  • 質が悪いページ
  • テスト中や会員限定ページなど全てのユーザーに見てもらいたくないページ
  • ユーザーに対して与える価値が低いページ

ページによっては、Webサイトの構造上必要ながらもクローラーから低評価される恐れのあるページもあります。

そのようなページは無理に削除せず、以下の3つの方法の中から可能そうなものを使って拒否しましょう。

robots.txtを利用する

robots.txtはWebサイトのルートディレクトリに設置するテキストファイルであり、このファイル内にクローラーの巡回を拒否する構文を書けばOKです。

なお、robots.txtを作ってクローラーの巡回を拒否する場合には、作成後にテストしましょう。

テストすることで、記述内容にミスがないか確認できます。

noindexを利用する

noindexとはメタタグの1つであり、該当するWebページを検索結果に表示しないよう支持できます。

noindexはnofollowと一緒に使われることが多いですが、双方には違いがあります。

noindexはクローラーが巡回したページをインデックスに登録することを拒否するタグであるのに対し、nofollowはクローラーに対して、リンク先のページまで巡回することを拒否します。

双方とも少し役割が異なるため、目的に応じて使い分けたり一緒に使ったりしましょう。

クローラーの理解を深めてSEOを考えよう!

今回は検索エンジンのクローラーにおける基本情報や確認方法、クローラーの巡回を促すためのポイントなど

SEOのことを考える上で、検索エンジンのクローラーの理解は必要不可欠です。

だからこそ、今回紹介したクローラーの基本情報や拒否方法等をふまえて、SEO対策をしてみましょう。

記事スナイパーはオウンドメディア構築の経験も豊富。

ただ記事を大量生産するだけではなく、マーケティング分析とSEOの知見をかけ合わせ、ターゲットに「刺さる」オウンドメディアの構築をおこないます。

もちろん、記事執筆のご依頼もお受けしますので、1記事からでもご相談ください。

≫「記事スナイパー」を詳しく見てみる

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次