なりせなるてず

技術ブログにしたい

構造化データを追加したらGoogleさんがいっぱいクロールしてくれた

構造化データってのはschema.orgとかmicrodataとかってやつです。
リッチ スニペットと構造化データについて - ウェブマスター ツール ヘルプ
schema.org に関するよくある質問 - ウェブマスター ツール ヘルプ


色々小難しいことが書いてますが、僕は「HTMLに機械が理解出来る意味を持たせる」って言う風に認識してます。

例えば記事があったとして「このHTMLは記事だよー」って教えてあげることが出来ます。

実装

<div class="article">
  <a href="/article/123">
    <h1>記事のタイトル</h1>
  </a>

  <div class="article-body">
    記事の中身
  </div>
</div>

とても簡単ですが、こんな感じの記事があった場合

<div class="article-link"  itemscope itemtype="http://schema.org/Article">
  <a href="/article/123" itemprop="url">
    <h1 itemprop="name">記事のタイトル</h1>
  </a>

  <div class="article-body" itemprop="articleBody">
    記事の中身
  </div>
</div>

こんな感じに追加します。

itemscopeはスコープを定義します。divで定義しているので、このdivが閉じるまでがスコープです。
itemtypeは何を表しているかを定義します。"http://schema.org/Article"を指定してるので記事であると言っています。
itemscopeitemtypeはセットで定義します。
itempropはプロパティを定義します。リンクならurl、タイトルならname、記事の本文でアレばarticleBodyなどです。
詳しくはhttp://schema.org/を見てください。


どの位クロールしてくれたか

f:id:ichiy:20141024113444p:plain
定義する前は1日辺り1万ページくらいのクロールだったのが、記事とかリンクとかに構造化データを定義して2日目くらいに9万ページくらいになりました。
Googleさんにいっぱい見られてる・・・しゅごぉい・・・!


実際のページの数は2万ページも無いので、重複でクロールされまくってるわけです。
おすすめ記事とか関連記事とかで同じ記事へのリンクを構造化データで定義してるので当然といえば当然ですが。


この後ずっと毎日9万ページクロールされたのか?というとそんなわけなく、ほぼ元通りに落ち着きました。
f:id:ichiy:20141024121137p:plain

まとめ

実際クロールだけされてもインデックスされなきゃ意味ないんですがね。
僕はサービスを公開してから大分時間が経過した後、構造化データを追加したのでインデックス数などはほぼ変わりませんでした。
ですが、クローラーに「記事だよー」とか「関連リンクだよー」とか教えられるので、SEO的にはいいはずです。Googleさんも推奨してますし。。

何よりオープンしたてのサービスとかで、サイトマップ送ってもクロールしに来てくれないよーみたいな状況では有意かもしれません。