クローラー(GoogleBot)とその仕組み
更新日:
要約:
- クローラーがサイトを回遊・巡回しやすくさせるために「クローラビリティ」を上げる。
- クローリングとスクレイピングは似て非なるものである。
- サイト内の構造を理解しやすくすることで、クローラーにページを正しく認識をさせる。
はじめに
SEO担当者やWeb担当者の方は、クローラー・クローリングといった言葉に聞き覚えがあるかたも多いでしょう。
最近担当になったばかりで、その意味や用途を知らない方向けに、クローラーの特色や仕組みを解説していきます。
クローラーとは
クローラーとは、検索エンジンなどがランキングを決定する要素を収集するために作られた、サイトを巡回するロボット(bot、またはスパイダーとも呼ばれる)のことです。
クローラーという名前は、「這いずり回る」という意味の「クロール」に由来しています。
クローラーは、検索エンジンごとに多くの種類が存在します。
GoogleはGooglebot、Yahoo!はYahoo Slurp、BingはBingbot、BaiduはBaiduspiderといった名前のクローラーを使用しており、各社サードパーティーツールでも、専用のクローラー名を用いてWEBを巡回させています。
検索エンジンの世界シェアはGoogleがトップですが、日本ではYahoo!を利用されている方も多いようです。
しかしながら、Yahoo!もGoogleの検索エンジンを導入していることから、クローラー対策と呼ばれるものは、ほとんどGooglebot向けの話になります。
クローリングとその仕組み
クローリングとは、クローラーが定期的にサイトを訪問し、情報を取得・収集する動きのことです。
Googleなど多くの検索エンジンは、各々の検索データベースに情報を蓄積していきます。
ユーザーによる検索が行われると、入力されたキーワードをもとに、データベースの中から検索結果を引っ張り出してくることが出来るのです。
クローラーは、主に世界中に存在するサイト内のHTMLに記述されているリンクを辿って巡回してきます。
つまり、クローリングは、待っているだけでも自動的に行われますが、より早くページをクロールしてもらうためには、Google Search ConsoleからURL申請をするとよいでしょう。
また、クローラビリティとは、クローラーがWEBサイトやページに対して容易にアクセスさせるための手段のことで、クローラビリティの向上はSEO対策を行う上で、必要不可欠な要素とされています。
似たようなものにスクレイピングという言葉がありますが、以上で2つの違いを解説していきます。
クローリングとスクレイピングの違い
どちらもネット上に存在する情報を取得する手段で、混同して使用されることが多いのですが、その目的や違いを解説します。
まず、クローリングの目的は、WEBネットワークを巡回することにあります。
掲載されている情報を抜き出すだけではなく、サイト間の関連性や品質をチェックしながらインターネットを巡回して、大量にある類似した情報や質の異なるページから優れたページを判断して、検索順位に反映させるために利用されます。
一方、スクレイピングは、特定の情報や要素を抽出して、データを利用することが主な目的です。
そのため、一般的に必要な箇所のみをピンポイントで抽出することになります。
具体的な例としては、指定されたページに存在するグラフデータだけを抽出したり、タイトル・見出しといった特定の要素だけを抜き出す場合に利用されます。
使用目的や意図で使い分けられるため、どちらが優れているということはありませんが、昨今のWEBプログラマーやWEBエンジニアの間では、主にPythonを活用したスクレイピング技術が注目を浴びています。
クローラビリティ向上でSEO対策
「クローラビリティを上げる」という言葉を耳にしたことがあるかと思います。
クローラビリティとは、クローラーがウェブサイトやページを巡回しやすいよう設計することを指します。
つまり、クローラビリティを向上させることで、クローラーがうまくサイト内やページを回遊・巡回してくれるようになり、SEO対策にも効果を発揮する可能性が高まります。
インターネット上に公開されているサイトであれば、クローラーは、リンクを辿ったりSearch Consoleに送信されたURLを元に、出来るだけ情報を集めようとします。
しかしながら、認識していないサイトや質の低いページを巡回することはない、または巡回されても検索エンジンに登録されないので注意が必要です。
また、公開直後のサイトやページは、すぐに巡回されるとは限らないので、クローラーに対して信頼があり、認識しやすい環境を整えることで、はじめて検索結果に反映させることができます。
検索エンジンの順位を上げるには、サイト内のクローラビリティを高め、質の高い、信頼のあるコンテンツを公開することが重要になります。
適切な内部リンクの貼り方や、関連付けの具体的な考え方は、下記のトピッククラスターモデルで解説しています。
さて、クローラビリティの具体的な上げ方は以下のとおりです。
Google Search ConsoleでURL検査ツールを活用する
URL検査ツール(旧:Fetch as Google)、Googleに自サイトへのクローリングを促す機能です。
ページの更新、新規ページ作成を行った際は、Google Search ConsoleのURL検査ツールから該当ページのURLを送信しましょう。
Google Search Consoleでサイトマップの設定を確認する
ここで紹介する「サイトマップ」とは、HTMLで作成されたサイトマップページとは異なり、Googleなどの検索エンジンに対してURL構造を提供するためのXMLファイルのことを指します。
適切なディレクトリを配置した上で、正しく記述されたsitemap.xmlが公開されていれば、Googleが提供しているツール「Google Search Console」でサイトマップ登録を行うことが可能です。
既に登録が完了されている方も、改めてsitemap.xmlが正しく読み込まれているかどうかを確認することをお勧めします。
サイトマップが正常に読み込まれた状態であれば、定期的にクローラーはURLに訪問するようになるでしょう。
しかし、URLや記述方法が間違っていると、Googleはサイトマップを正しく理解できず、意図した巡回が行われなくなる場合があります。
パンくずリスト設定
パンくずリストとは、ユーザーが見ているページがサイト全体から見て、どの階層にあるのかを示す標識のようなものです。
パンくずリストを設定・設置することで、クローラーはサイト内の構造を理解しやすくなり、ページを見つけやすくなります。
一般的にパンくずリストは、HTMLで記述された内部リンクのことを指すことが多いのですが、構造化マークアップでも表現が可能で、Googleから率先して導入するように促す言及もあり、その重要性は近年増してきています。
クローラーが理解できるコンテンツを提供する
クローリングが行われるためには、クローラーにページの存在を認識してもらう必要があります。
クローラーが理解できる表現方法は、私たち人間の見え方や捉え方とは全く異なるため、クローラーが読み取れるテキスト情報を用いることが必須となります。
画像にURLが記載されていたり、音声や動画で誘導を促したとしても、クローラーはページの存在や構造を理解できません。
アンカーテキストリンクや文章などを用いて、テキスト情報による適切な訴求方法でコンテンツを作成する必要があります。
リンク構造を適切に配置する
URLの長さはランキングの要素ではないと公表していますが、クローラーの負担を考えると、わかりやすくシンプルに越したことはありません。
また、URLの階層は構造が上位にあるディレクトリのほうが、包括的なコンテンツと見なされ、評価が高まる傾向があります。
つまり、ディレクトリ構造や名称の付け方も非常に重要な施策の1つとなります。
URLを発見してもらいやすくするためには、階層が浅いコンテンツの方が評価されやすく、ディレクリ名も端的でコンテンツの中身がどんなものか理解しやすいものが好まれます。
まとめ
検索エンジンにおけるクローラーとは何かについて主に解説しました。
適切な設計・訴求が行われていないと、クローラーに対してページの存在や意味が正しく訴求できず、検索ランキングが上がらない、また最悪の場合は検索結果に掲載されないといった事態に陥ります。
改めてウェブサイト全体のクローラビリティの改善箇所を洗い出してみてはいかがでしょうか。
YouTube動画 – 柏崎剛SEO対策チャンネル
よくある質問
📕 画像クローラーとは何ですか?
📕 Googleのクローラーのユーザーエージェントは何ですか?
📖 GoogleのウェブクローラーであるGooglebotのユーザーエージェントは、ウェブサイトを巡回して情報を収集する際に使用される識別子です。具体的には、デスクトップ版のGooglebotは「Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)」、モバイル版は「Mozilla/5.0(Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)といった形式です。これらのユーザーエージェントを使用して、Googlebotはウェブページをクロールし、インデックスに登録します。
📕 ウェブクローラーとスクレイピングの違いは何ですか?
📖 ウェブクローラーは、インターネット上のウェブサイトを自動的に巡回し、情報を収集するプログラムです。一方、スクレイピングは、収集したウェブページのデータから特定の情報を抽出する技術を指します。つまり、クローリングがウェブページ全体の収集を目的とするのに対し、スクレイピングはその中から必要なデータを取り出す工程です。これらは連携して使用されることが多く、例えば、クローラーで収集したウェブページからスクレイピングで特定の情報を抽出する、といった形で活用されます。