2006年08月17日

流入キーワードもベキ分布だった!

高安秀樹さんの『経済物理学の発見』を読んで、ベキ分布にちょっと興味をもったので、手近なデータでそういう傾向を示すものがないか調べてみました。
調べてみたのは、Webサイトの検索エンジン経由の流入キーワード別アクセス数です。

流入キーワードにはフラクタル性が見られる

ロングテールと物理的制約」でも紹介しましたが、多くのWebサイトの検索エンジン経由の流入キーワードは単純に集計すると、たいていはロングテールみたいなグラフになります。
また、高安さんの本にあった「一般に、ベキ分布にしたがうような現象にはフラクタル性があります」という言葉の通り、検索エンジン経由の流入キーワード数の上位20%が全体の約80%を占め、さらに上位20%のうちの上位20%(つまり全体の4%)も上位20%のうちの80%を占めるという入れ子状の傾向も見られることが多かったりします。
ということもあって、これはもしやベキ分布なのでは?と思って、いくつかのサイトのアクセスログデータを分析してみました。

流入キーワードはベキ分布に従う

まず、下のグラフをご覧ください。



このグラフは、ある2社のWebサイトの検索エンジン経由の流入キーワード別アクセス数を、両対数グラフ(x,y軸ともに数値を対数化したグラフ)で表したものです。縦軸が各キーワードごとのアクセス数(の対数)、横軸がアクセス数が多いもの順にキーワードの数(の対数)をプロットしたものになります。ようは上がアクセス数が多く下が少ない。左がキーワードの数が少なくて右ほどそこに分布するキーワードの数が多いとみていただければOKです。
※どこのサイトかわかってしまっても問題ですので、念のため、数値目盛りは省略させていただきました。

さて、高安さんの本によればベキ分布を示すグラフは両対数グラフで表現すると直線を描くということですが、どうでしょう? 見事なくらい、ほぼ直線を描いてませんか?
ただ、両方のグラフとも左上の分布がちょっとバラついているのがわかると思います。赤いほうは左上が下に垂れていて、紫のほうは逆に上に膨れ上がっています。この傾向があるので、実は両グラフと上位20%を抽出してフラクタル性を確かめると、そうなっていないんです。おそらく直線部分だけを抽出すれば
フラクタル性が見つかるはずです。

では、なんでこんな風に左上が垂れ下がったり、膨らんだりしているかというと、ようするにヘッドの部分のSEM対策で失敗してるか成功しているかってことなんです。当然、垂れ下がってるほうがヘッドの部分が弱くて、逆に膨らんでるほうはWeb以外でのブランディングができているために、その部分のキーワードの検索数が多いんです。ようは社名の認知が高いだけなんですが。反対の見方をすれば、紫のほうは社名が強いのに他のキーワードでのSEMが弱いために、ヘッドが突出して見えてしまっているというわけです。

いろいろSEOやSEMの話は見たり聞いたりしたことがあると思いますが、こういう分析って今までになかったでしょ? 自分でもやってみてちょっと感動しました。
でも、まだこれだけじゃ終わらないんです!

直線の傾きがロングテールの指標

今度は下のグラフを見てください。2本のグラフともさっきのグラフよりきれいな直線を描いていますよね。こっちのほうはやっぱりちゃんとベキ分布になっているようで、フラクタル性が見られたわけです。



で、見ていただければわかると思いますが、2本のグラフは傾きが違います。青いほうが緑にくらべて傾きが急になっているのがわかると思います。
この2つのグラフの上位20%がそれぞれ全体の何%を占めるか調べると、青いほうは上位20%だけで全体の約90%を占め、緑のほうは全体の80%を占めているわけです。つまり、この傾きがどれだけテールを伸ばせているかの指標になるわけです。緑のほうで80:20の法則が成り立っているわけですから、この傾きでもまだまだロングテールとはいえないのでしょうね。
また、緑のほうはよく見ると右下のほうですこし下向きの曲線を描いていますので、このあたりはもうすこし伸ばすことができるんでしょう。

ベキ分布を探す旅

ベキ分布は、私たちが生活する物理世界においても自然に見られる分布だと言われます。
例えば、ガラスが割れたときの破片は、ごく少数の大きな破片にはじまり、それよりも多い数の中くらいの破片、数え切れない小さな破片、そして、目に見えない大きさの微小な破片が無数に、といった具合に破片の大きさとその数がちょうどベキ分布になるそうです。また、発生する地震のエネルギーも同じくベキ分布になることが昔から知られていたそうです。
他にも、Webのネットワークにおける被リンク数の分布や言葉のネットワークもベキ分布を示すことがバラバシをはじめとするスケールフリー・ネットワークの研究でわかってきています。

実際、ページ単位でのページビューでも同じようにベキ分布が見られるか調べてみました
しかし、どのサイトも残念ながら完全なベキ分布は描いていませんでした。どのサイトもたいていは右下のほうで急激に下降するんですよね。
ちゃんと調べてみないと明確なことはいえませんが、推測される理由は以下の2つです。

  1. キーワードの場合は言葉そのものが先にも述べたようにスケールフリー・ネットワークになっている傾向があるため、検索の際にもそれがうまく働くため、流入キーワードもベキ分布を描きやすい
  2. 現状のWebサイトのリンク構造が階層構造を基本としているため、外部からの流入を含めたWebのネットワークのスケールフリー・ネットワーク性を加味しても、内部ではその効果が薄れてしまっている

2.の理由が強ければ、階層構造的になっていないブログなんかは、ページ単位でのページビューでも同じようにベキ分布が見られるんじゃないかなと思ったりします。これはまた別途調べてみないといけませんね。

まだまだWebをわかっているようでぜんぜんわかってないですね。

P.S.
続編として「ベキ分布を示すWebの法則性」をアップ。
ページビュー、訪問者数、参照元についても同様の考察を行っています。
(2006/08/18 22:47追記)

関連エントリー

 
posted by HIROKI tanahashi at 22:03| Comment(2) | TrackBack(1) | 数学 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
これはありがたい分析結果ですね!
またいろいろわかったら紹介してください(ワクワクw)。
Posted by simfarm at 2006年08月18日 07:00
これ、結構、おもしろいですよ。
しばらくはまりそうです。
Posted by gitanez at 2006年08月18日 11:19
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

この記事へのトラックバックURL
http://blog.seesaa.jp/tb/22472562
※言及リンクのないトラックバックは受信されません。

この記事へのトラックバック

人気投票はベキ分布
Excerpt: ネット上でもよく見かける「人気投票」。 投票結果を見ると、だいたい上位の少数が大多数の票を獲得しているように見えませんか。 いわゆる人気の一極集中化現象です。 聞くところによると、こうした人気ランキ..
Weblog: 悪魔の妄想
Tracked: 2009-08-20 15:25