2006年08月18日

ベキ分布を示すWebの法則性

さて、昨日の「流入キーワードもベキ分布だった!」の続編です。

昨日は、Webサイトに流入してくる検索ワードのアクセス数の分布を見てみましたが、今日はその他のWebサイトのアクセスログの数値に関しても同じように両対数グラフ化することで傾向を調べてみました。

ページ単位でのページビュー

まずは一般的な企業サイトにおけるページ単位でのページビューの分布を昨日と同じように、両対数グラフで表現してみました。



途中まではベキ分布にみられる直線の分布をみせています。その後、サイトによって傾きは異なりますが、右のほうで急激に傾斜が変わり、曲線を描いているのがわかります。
このグラフが意味するのは、ページビューが少ないページは割と少なく、いわゆるロングテールになっていないということになります。昨日のキーワードの場合は1、2しか使われないキーワード(キーフレーズ)が大量に存在するためにほぼきれいなベキ分布を見せていましたが、ページビューの場合、そうはならないようです。
テールが短いことの影響が、上位20%が占める割合にもはっきり出ていて、最も急激な落ち込みが見られる赤いグラフの場合では上位20%が全体の89%を占めています。

で、昨日、ページビューの場合、こうした傾向をみせる要因として、サイトの階層構造が影響しているのではないかと考え、構造が割とフラットであるブログであれば、もしかするとベキ分布になるのではと考えたわけです。
しかし、結果は下のグラフをご覧のとおり、ブログであろうと変わりませんでした。



こうした傾向について調べていると、すでに同じような調査が1997年に行われていて、その時でも同じ傾向がみられたのがわかりました。

利用できるデータの数多くが、ウェブの利用状況がZipf分布になっていることを示している。
Alertbox: Zipf曲線とウェブサイト人気度(1997年4月15日)


こうした傾向が見られる理由として、検索エンジンの検索精度が高くなり、下層のページでも検索エンジン経由の流入が高まったことなども影響があるのかと考えましたが、どうも1997年から同じような傾向が見られたのであれば、その理由も正しくなさそうです。
これは結構、謎ですね。比較のため、他の数字も見てみました。

ページごとの閲覧時間

ページごとの閲覧時間のデータをみても、傾向はページビューの場合と同じでした。



ただし、ページビューの場合でも、この閲覧時間の場合でもそうなのですが、途中までは直線に近い分布を示していることからも想像できるとおり、ほんの一部の数少ないページにアクセス数も、閲覧時間も集中しているわけです。ヘッドは非常に高いのですが、尻尾が短いというのは、実際にはまだまだ今のサイトの構造(割と標準的に見られるグローバル−ローカルナビゲーションによるナビゲーション構造)にはより多くの情報が詰め込める可能性があるということなのかな?と思ったりします。

参照元(どこのサイトからアクセスしてきたか)

次に、どこのサイトからアクセスしてきたかを示す参照元のデータについても同じように見てみましょう。



パッと見て一目瞭然ですが、こちらはキーワードと同じくきれいなベキ分布を示しているのがわかります。

訪問者別訪問回数

続けて訪問者別訪問回数を見てみましょう。こちらのデータはB2Cの企業だとIPが固定されず、訪問者が特定されにくいのでB2Bの企業サイトを対象にしてみました。



やはりこちらも直線に近い傾きが描かれています。
「やはり」と書いたのは、アクセスログ解析データの対象となっているサイトの構造とは無縁のものに関しては、ベキ分布が見られるのではないかと考えたからです。
これまで見てきた5つのデータのうち、検索キーワード、参照元、訪問回数はきれいなベキ分布を示し、ページ単位のページビューと閲覧時間はベキ分布になりきれていなかったという結果が出ています。
前者は外部からの訪問のカウントであり、基本的には解析対象となるサイトの構造の影響を受けにくいものです(ただし、SEOという意味ではサイトの文書構造の影響も受けますが)。一方で後者は、サイトのナビゲーション設計やUIの設計などに大きく影響を受けるものです。さらにいえば、後者はサイト内の情報数(あるいはページ数)に依存するものですが、前者はサイト内のボリュームの影響を受けにくいという違いを見ることも可能です。

長くなりましたので、このあたりの詳細な分析は、また別のエントリーですることにします。

関連エントリー

 

posted by HIROKI tanahashi at 22:37| Comment(0) | TrackBack(1) | 数学 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]


この記事へのトラックバック

個人ニュースサイトの被アンテナ数も80対20の法則だった件
Excerpt: どうも。他人のふんどしと言えば私、ヒラヤマです。 白い戯言さまがParallels2さまにある個人ニュースサイト それぞれのはてなアンテナ被登録数を調査なさっており、 うちも集計されていたの..
Weblog: パンがなければお菓子を食べればいーじゃない!
Tracked: 2007-01-06 00:18