Googlebot のクロール バジェットについて まとめ
2016〜2018年の2年ほどWEB業界から離れていたら、色々聞きなれない単語がたくさんでてきているので、恥を恐れず一つ一つ調べてまとめていきます。今回は「クロール バジェット」について。
クロール バジェットの概要
公式ブログに詳しく載っていました。 webmaster-ja.googleblog.com
そもそもGoogle内部には「クロール バジェット」という言葉はなく、Googlebotが効率よくWEB全体をクロールするためにしていることが結果的に「クロール バジェット」があるように見られている、ということだと認識しました。
Googlebotが効率よくWEB全体をクロールするためにしていること
- クロール速度の制限
- クロールの必要性
の2点の要素を判断し、当該サイト内でクロールをする量を決定している。
クロール バジェットに影響を及ぼす要素へのベストプラクティス
自分が調べた中での結論を先に述べますと、
- まず第一にSEOではなく、ユーザビリティを考える
- 構造はシンプルに
- サイトマップとrel=canonicalを活用し、かつ整合性を保つ
- URLは標準的なパラメーターを利用し、論理性を保つ
- ページ表示速度は早い方が良い
- 5xx エラーや接続タイムアウトを少なく抑える
です。
一つ一つ見ていきます。
ファセット ナビゲーションとセッション ID
Google ウェブマスター向け公式ブログ: ファセット ナビゲーションのベスト プラクティスと 5 つのワースト プラクティス
https://webmasters.googleblog.com/2007/09/google-duplicate-content-caused-by-url.html
GOOD!
- すべての商品/記事ページにアクセスできる明確な動線
- 個々のカテゴリ ページを表す URL は 1 つ
- 個々の商品ページを表す URL は 1 つ
BAD...
- 同じ記事/商品の URL が複数存在する
- 検索ユーザーや検索エンジンにとってほとんどまたはまったく価値のないカテゴリ ページが大量に存在する
- パラメータに標準的でない URL エンコードを使用している(「キー=値」ペアではなくカンマやかっこなどを使用している)
- ページ コンテンツを変更しない値を、パラメータではなくディレクトリやファイル パスとして追加する
- ユーザー生成値を、クロールもインデックス登録も可能だが、検索結果では有用でない(場合によっては無限の)URL パラメータに変換する。
- URL パラメータの追加に論理性がない
- 該当する検索結果のない絞り込み条件が表示されている
つまり....
シンプルなままにしておけるなら、それがベストであるということは覚えておいてください。
肝に命じます。 細かい改善アイデアは張っている公式ページに書いてありますのでご参考ください。
サイト内の重複コンテンツ
Official Google Webmaster Central Blog: Google, duplicate content caused by URL parameters, and you
セッションIDやトラッキングIDなどのURLパラメーターがコンテンツの重複を引き起こす場合について
- URLパラメーターによって引き起こされるバリエーションなどによって重複コンテンツを検出すると、重複URLを1つのクラスターにグループ化します。
- 検索結果でクラスターを表す「最適な」URLと思われるものを選択します。
- 次に、クラスター内のURLのプロパティ(リンクの人気度など)を代表URLに統合します。
2007年の記事でした、わーお。2007年から重複コンテンツの対策をgoogle側でしていたのですね。
Googleが重複したコンテンツを処理する方法のため、ウェブマスターは、リンクの人気の喪失や重複によるPageRankの喪失に過度に気にする必要はありません。
その上で、下記対策を推奨しています。
- 不要なURLパラメータを削除します-URLを可能な限りクリーンに保ちます。
- 各URLの標準(つまり代表)バージョンでサイトマップを送信します。
ソフトエラー ページ
Official Google Webmaster Central Blog: Crawl Errors now reports soft 404s
2010年からgoogleはソフトエラーを検出するようになっており、検出されたページへの対策を行う様に喚起しています。 ソフトエラーをなくすことにより、サーバー上の問題の少ないサイトとしてクロールの必要性があがり、クロール量も増加するということかと。
ハッキングされたページ
略。ハッキングされたページはクロールしない方がいいですね。
無限のスペースとプロキシ
Official Google Webmaster Central Blog: To infinity and beyond? No!
「無限のスペース」の典型的な例
- さまざまな方法で検索結果のセットをフィルタリングするWebサイト
- 「来月」リンクのあるカレンダー
解決策
- robots.txtファイルを使用して、動的に生成されたリンクのカテゴリ全体を削除する
上記の解決策は個人的には極端に感じます。 無限のスペース、にあたるものは動的なサイトにおいて自動に生成されるURLですが、基本的にGooglebotはリンクを辿るのでリンクを設置していなければ大丈夫なように思います。
質の低いコンテンツやスパム コンテンツ
略。
最後に
シンプルイズベスト! ユーザーを第一に考えて作るサイトがベストプラクティス。