第五十七夜 キャッシュの利用

googleで検索すると結果のリンク表示とは別に
  キャッシュ  関連ページ
というハイパーリンクテキストがそれぞれついてます(関連ページというのは同一サーバ内の関連記事などで、今回は触れません)。
googleはクロールした際、サイトのそのときのキャッシュを保持していて、この情報を元に検索をかけているようです。このことは広く知られており、弊害もでています。もう存在しない古いサイト情報が残ってたり、下手をすると不適切な表現や個人情報を削除する前のものがキャッシュに残っている可能性だってあります。まあクロールのタイミングの問題なのですが、いつgoogleがクロールしてくるか分からないのでいつの段階のキャッシュが残ってていつそれが上書きされるかが予想つかないんですよね。
で、googleはこの膨大なキャッシュを無条件で公開しています。よくよく考えてみたらこれって著作権問題に発展しそうなもんですが、googleがやるとそれが業界標準になってしまうんですから不思議ですね。検索エンジンの特権事項になっています。治外法権みたいなもんですね。

先日、はてなダイアリー日記を上書きしてしまったとき、googleのキャッシュを当たったところ見事に発見して復活させたダイアラーの方がいましたが、普段はあんまり使わんものです。ちなみに私もおなじことをしてしまったときに、IEをオフラインにして「戻る」ボタンで該当キャッシュを探しだしました。キャッシュの有用さを身をもって実感した瞬間でした。

と思ったらこんな記事が、

見られたくない過去!?(japan.internet.com
http://headlines.yahoo.co.jp/hl?a=20040325-00000001-inet-sci
やはり問題になっているようですが、あんまり危機意識を煽るような文面ではありませんね。

ここにも載ってますがgoogleの保持キャッシュを完全に削除するには
http://services.google.com:8882/urlconsole/controller
にアクセスして削除依頼をかけなければなりません。

しっかし上の削除依頼ページ、ニュース記事に取り上げられたせいもあるのか、なかなかつながりません。トラフィックが集中しているようです。googleはクロール回避のための情報もサイトに掲載していますが、そこも結構繋がりにくいページで以前何度もリロードした記憶があります。その場所を探すのもまた大変なんですが。
もしかしてこの手の情報を、googleはわざと弱いサーバーに置いていてユーザーがあきらめるのを待ってるんじゃないか、と勘繰りたくなります。なんといってもキャッシュはgoogleの生命線、金の卵なわけですから。みんながgoogleのキャッシュ保持を拒否し始めたらおまんまの食い上げですもんね。

・・
・・・・
以上のことを踏まえてgoogleの社内でのヒエラルヒー(想像図)を図に表してみました。


























            広告主

        キャッシュ  キャッシュ

      サーバー サーバー サーバー 

  社員 社員 社員 社長 社員 社員  社員






・・・・・・・・あくまで私の想像図です。