是空

駆け出しエンジニアが学んだことをまとめていくブログ

Googlebot のクロール バジェットについて まとめ

2016〜2018年の2年ほどWEB業界から離れていたら、色々聞きなれない単語がたくさんでてきているので、恥を恐れず一つ一つ調べてまとめていきます。今回は「クロール バジェット」について。

クロール バジェットの概要

公式ブログに詳しく載っていました。 webmaster-ja.googleblog.com

そもそもGoogle内部には「クロール バジェット」という言葉はなく、Googlebotが効率よくWEB全体をクロールするためにしていることが結果的に「クロール バジェット」があるように見られている、ということだと認識しました。

Googlebotが効率よくWEB全体をクロールするためにしていること

  • クロール速度の制限
  • クロールの必要性

の2点の要素を判断し、当該サイト内でクロールをする量を決定している。

クロール バジェットに影響を及ぼす要素へのベストプラクティス

自分が調べた中での結論を先に述べますと、

です。

一つ一つ見ていきます。

ファセット ナビゲーションとセッション ID

Google ウェブマスター向け公式ブログ: ファセット ナビゲーションのベスト プラクティスと 5 つのワースト プラクティス

https://webmasters.googleblog.com/2007/09/google-duplicate-content-caused-by-url.html

GOOD!

  • すべての商品/記事ページにアクセスできる明確な動線
  • 個々のカテゴリ ページを表す URL は 1 つ
  • 個々の商品ページを表す URL は 1 つ

BAD...

  • 同じ記事/商品の URL が複数存在する
  • 検索ユーザーや検索エンジンにとってほとんどまたはまったく価値のないカテゴリ ページが大量に存在する
  • パラメータに標準的でない URL エンコードを使用している(「キー=値」ペアではなくカンマやかっこなどを使用している)
  • ページ コンテンツを変更しない値を、パラメータではなくディレクトリやファイル パスとして追加する
  • ユーザー生成値を、クロールもインデックス登録も可能だが、検索結果では有用でない(場合によっては無限の)URL パラメータに変換する。
  • URL パラメータの追加に論理性がない
  • 該当する検索結果のない絞り込み条件が表示されている

つまり....

シンプルなままにしておけるなら、それがベストであるということは覚えておいてください。

肝に命じます。 細かい改善アイデアは張っている公式ページに書いてありますのでご参考ください。

サイト内の重複コンテンツ

Official Google Webmaster Central Blog: Google, duplicate content caused by URL parameters, and you

セッションIDやトラッキングIDなどのURLパラメーターがコンテンツの重複を引き起こす場合について

重複コンテンツがウェブマスターとユーザーエクスペリエンスに悪影響を与えないようにするアルゴリズムを設計しました。

  • URLパラメーターによって引き起こされるバリエーションなどによって重複コンテンツを検出すると、重複URLを1つのクラスターにグループ化します。
  • 検索結果でクラスターを表す「最適な」URLと思われるものを選択します。
  • 次に、クラスター内のURLのプロパティ(リンクの人気度など)を代表URLに統合します。

2007年の記事でした、わーお。2007年から重複コンテンツの対策をgoogle側でしていたのですね。

Googleが重複したコンテンツを処理する方法のため、ウェブマスターは、リンクの人気の喪失や重複によるPageRankの喪失に過度に気にする必要はありません。

その上で、下記対策を推奨しています。

  • 不要なURLパラメータを削除します-URLを可能な限りクリーンに保ちます。
  • 各URLの標準(つまり代表)バージョンでサイトマップを送信します。

ソフトエラー ページ

Official Google Webmaster Central Blog: Crawl Errors now reports soft 404s

2010年からgoogleはソフトエラーを検出するようになっており、検出されたページへの対策を行う様に喚起しています。 ソフトエラーをなくすことにより、サーバー上の問題の少ないサイトとしてクロールの必要性があがり、クロール量も増加するということかと。

ハッキングされたページ

略。ハッキングされたページはクロールしない方がいいですね。

無限のスペースとプロキシ

Official Google Webmaster Central Blog: To infinity and beyond? No!

「無限のスペース」の典型的な例

  • さまざまな方法で検索結果のセットをフィルタリングするWebサイト
  • 「来月」リンクのあるカレンダー

解決策

  • robots.txtファイルを使用して、動的に生成されたリンクのカテゴリ全体を削除する

上記の解決策は個人的には極端に感じます。 無限のスペース、にあたるものは動的なサイトにおいて自動に生成されるURLですが、基本的にGooglebotはリンクを辿るのでリンクを設置していなければ大丈夫なように思います。

質の低いコンテンツやスパム コンテンツ

略。

最後に

シンプルイズベスト! ユーザーを第一に考えて作るサイトがベストプラクティス。