第五十五夜 頻出度調査〜活性水素水レヴォリューションズ〜

自分のサイトをアンテナに入れていただいているサイトが増えているようです。ありがたいことですが、必ずしも参照時にリンク元として残るわけではないらしく、全体像をよく把握できてません。過去・未来更新をしたり更新時間がまちまちなのも響いてますね。別に把握する必要性はそんなにないのですが、どんな方がどういうところに興味を持ってアンテナに入れてくれているのか、あわよくばそこから交流など・・・。ということで人力で探す方法を考えていました。

googleで検索 検索千夜一夜 site:a.hatena.ne.jp

この方法だと非公開アンテナは含まないので逆探知されたくないダイアラーを最初から除外できるのはいいですね。
(日記タイトルがごく一般的な名称の方は苦しむかと思います。ヘッダやフッタにある限定できそうなキーワードを追加してください)
毎度のことながらgoogle頼みなのでキャッシュに保存されていないものは外れますが。
半数ぐらいは既知の方でしたが、ID名すら初見の方も数名いらっしゃいました。ありがたいことです。合掌。

最近はてなダイアリーとか人力検索など手を広げすぎた感があるので今日は本題のマニアックなネタを。
前回、id:kt-blackout さんにこのブログを解析いただいたところ「活性」と「水素」の出現頻度がやはり高いようです。形態素解析を行うソフトですが、折角なので私も独自に調査してみましょう。ただし文系人間は力技なんでid:kt-blackout さんみたいにスマートじゃないですが。

最初に活性水素を取り上げたページ(第四十夜)はYahooの「活性水素」での検索結果11ページ目(初登場時は16ページ目)にランクアップしたようです。(活性水素をキーワードに登録したのが効いたようです)二回目に取り上げたページはまだキャッシュに入っていないようで、どうやっても検索に引っかかってきません。


私が目標(ライバル?)としているページ googleページランク3なのに活性水素の検索でトップに君臨しつづけています。

http://www.h7.dion.ne.jp/~mizu/
検証のため本文全文引用します。

活性水素活性水素水に関する情報サイトは、活性水素活性水素水の知識として、知っておきたい項目をまとめてみると「活性水素とは、活性酸素とは、活性水素には治療効果があるといわれるが、活性水素水とは、活性水素水の特徴、人工的な活性水素水とは、活性水素量の測定、ORP(酸化還元電位)とは」などの8項目があります。また、活性水素活性水素水の効用として、現在考えられているものは「アレルギー(アトピー)、糖尿病、高血圧、ガン、ウィルスによる感染症、老化」などの6項目です。活性水素水や浄水などを無料で酸化還元電位クラスター値を測定では「PH値(ペーハー)、ORP値(酸化還元電位)、残留塩素濃度(消毒液)、クラスター値(お水の粒子の大きさ)」などの知識を学ぶことができ、しかも無料で測定がしてもらえます。そして最後に、電解還元水整水器(トリムイオン)などと並ぶ活性水素水が生成できるパールウォーター(活性水素水生成器)の詳しい解説をご紹介いたします。

活性水素に限って出現頻度を見てみましょう
但し断っておきますが、これはあくまで形態素解析の検証の一環であって、ここで紹介するような手法を自サイトを作成する際にお勧めするものではありません。

●引用部分
活性水素 15回出現
ワード2002による文字数カウント
単語数 418
文字数 423

●ページ全体(ヘッダやボタンやメタなども含む)
活性水素 27回出現
ワード2002による文字数カウント
単語数 548
文字数 560

これはgoogleでの上位表示にかなり効きそうです。出現頻度という尺度を設定して私のところ(活性水素のニ話)と比べてみましょう。
私の独断と偏見で作ってみました、特定キーワード出現頻度算出式(ベータ版)

■特定キーワード出現回数の2乗 / ページ総単語数 =出現頻度値

これを先ほどの結果に当てはめると・・・(小数点四位以下切り捨て)
引用部分 0.538
ページ全体 1.330

2乗にしたのには訳があります。出現回数を意図的に増やさない限り、その話題で同一の単語を連発するのは文章として不自然にならざるを得ず、一ページで同じ単語が出現する回数はせいぜい、数回から10回くらいまでに収まるであろうと。でそれを超える出現数をカウントした場合へのボーナスとして2乗を設定しました。出現回数が少なければ、全体の単語数が少なくときでもこの数値が上がらないようにという工夫です。サンプルが集まらないと結論は出せませんが我ながら、面白い考察になりそうです。勝手な憶測ですが、この数値が1を超える場合には意図的な出現頻度の持ち上げが行われているのでは?、という分岐点になるのではないか、と仮定しておきます。

サンプル収集・・・できるだけ一般的な書き方をしていると思われるサイトを作為的に抽出しました。個人のサイト名は伏せておきます。

個人日記ページの1日分  最頻出の一般名詞「日記」(24)単語数(1058)出現頻度値(0.5907)
個人サイト(「〜のページ」とタイトルのついたトップページ) 
・・・・・・・・・・・・・最頻出の一般名詞「さくら」(4)単語数(27)出現頻度値(0.5925)
ビックカメラのトップページ 最頻出の一般名詞「2004」(15)単語数(619)出現頻度値(0.3634)
岩波書店         最頻出の名詞「岩波書店」(9)単語数(427)出現頻度値(0.1896)
株式会社ウェディング   最頻出の一般名詞?「ウェディング」(10)単語数(90)出現頻度値(1.111)
asahi.comのトップ    最頻出の一般名詞「円」(11)単語数(1219)出現頻度値(0.099)
悪マニのトップ      最頻出の一般名詞「悪徳商法」(22)単語数(1325)出現頻度値(0.4716)
Yahoo頻出キーワード4位の「壁紙」の検索キーワードでgoogle検索した場合の最上位サイト
壁紙.com・・・・・・・・・最頻出の一般名詞「壁紙」(110)単語数(782)出現頻度値(15.4731)

まあおしなべて予想通りの結果です。

ちなみに私のブログサイト(活性水素に言及した2話)
第四十夜  活性水素(25)単語数(2755)出現頻度値(0.2268)
第四十九夜 活性水素(18)単語数(1433)出現頻度値(0.2260)


で、結論。
キーワード語の出現回数はそこそこあるので、私のサイトも駄文を減らせば出現頻度値を上げられるようです。
(これ以上自然に活性水素の文字を増やす方法が思いつきませんでした)
ヘッダフッタも含めて目標ページ500語未満!!
そうすれば出現頻度値1を超えるのも難しくない!
・・
・・・
・・・・
(そんなの無理だって)

ところで、どの辺がレヴォリューションズなのかって?

うーんと、全体の雰囲気から察知してください。

機械の蛸がうようよいるかのような無機質な内容とか、
振りだけはいっぱいあったのに、とってつけたような納得いかないエンディングとか・・・・それはいつものことか。