2006年08月26日

制御された不完全な秩序とカオスの中に芽生える秩序

今日もWebのベキ分布を示す法則性が気になって、今度はページごとのサイト内リンクの数を調べてみました。あるページに他のページからどれだけのリンクがはられているかってことです。

結果を示す前に、何故そんなことを調べたかを説明しておきましょう。
Webのネットワークがもつスケールフリーの法則性を発見したアルバート=ラズロ・バラバシは著書『新ネットワーク思考―世界のしくみを読み解く』の中で、Webのネットワークの各ノードがもつリンク数を調査した結果をみたときの驚きを次のように書いています。

われわれはリンク数の度数分布を両対数グラフに表し、それをうまくなぞるような関数を探してみた。その結果にわれわれは度肝を抜かれた。リンク数の度数分布は、数学でいうところの「ベキ法則」にぴたりと合っていたからだ。
アルバート=ラズロ・バラバシ『新ネットワーク思考―世界のしくみを読み解く』

その後、バラバシらがハリウッド俳優のネットワークや物理学の論文引用件数、航空会社のルートマップなど、いたるところにベキ法則を発見したことは『新ネットワーク思考―世界のしくみを読み解く』に詳しい。
そんなこともあって、では、全体ではベキ法則があてはまるWebのネットワークの中に存在する1つ1つのサイト内のリンク数はどうなっているか気になったんです。

サイト内リンクはベキ分布しない

このブログのサイト内のリンク数も含め3つのサイトを調査してみましたが、最初にある程度、予想していたとおり、以下の両対数グラフのとおり、サイト単位ではベキ分布はみられませんでした。



3つのグラフはそれぞれ異なりますが、どれも階段状になった平らな部分がいくつか見つかります。
これは現在のWebデザインの主流として、グローバル−ローカルナビゲーションを基本としたナビゲーション・デザインが実装されていることを考えれば、ある程度、当然のことです。
ブログに関してはグローバル−ローカルナビゲーション的な構造はとっていませんが、逆にある程度固定されたサイドバーがすべてのページにつく構成になっていることが多く、青で示したグラフのように、グローバル−ローカルナビゲーションをもった一般のサイト以上に平らな部分が長く続くのがみてとれると思います。

こうしたナビゲーション設計に基づくリンク構造は、階層構造をベースに組織化された情報をつなぐことになるため、基本的に階層単位でどのページも同一のリンク数をもつことになります。
例えば、トップページに戻るリンクとグローバルナビゲーションに含まれるリンクはほぼすべてのページに存在するでしょうし、第2階層のローカルナビゲーションもそのディレクトリ内のすべてのページに存在するはずです。これが階段状のグラフを生み出すわけですが、どのグラフも右下のほうで階段状の分布が崩れ、ベキ分布にみられるような直線の分布がみてとれるのは、下層にはられたリンクが階層構造による構造化を免れているからだといえます。

「制御された不完全な秩序とカオスの中に芽生える秩序」の続き
posted by HIROKI tanahashi at 00:06| Comment(5) | TrackBack(0) | 数学 | このブログの読者になる | 更新情報をチェックする

2006年08月24日

対数の世界でのマーケティング

ロングテールと口コミ」などで、ベキ分布を表現するのに、両対数グラフを使ってきましたが、そもそも対数というのがあまり馴染みがないもののようです。
対数そのものの説明に関しては、以下のページを参考にしていただくとして、


このエントリーでは対数をつかうと何が便利かということを簡単に紹介しておくことにします。

掛け算を足し算のように扱える

まず、よく言われるのは、対数をつかうと掛け算を足し算のように扱うことができるということです。特に大きな数の掛け算だとこれが便利です。

(前略)数値があっという間に大きくなってしまうので、そのままではじつに理解しづらい。対数は、そういう現象の数値を小さく置き換え、足し算的に変化する現象に替えてくれるのである。たとえば、10の掛け算でどんどん大きくなる現象が、1の足し算でゆっくり増える現象に置き換えられるのである。
畑村洋太郎『直観でわかる数学』

100,000×10,000,000は?といわれてもすぐに計算できません。
でも、これが10の5乗×10の7乗だとわかれば、5と7を足すだけなので、答えは10の12乗だとわかります。
10を底にする常用対数は、log10=1、log100=2、log1000=3、・・・という具合に、0の数を数えたものが真数となるので、それこそ、上のような足し算が可能になるわけです。
これは慣れてくると結構便利です。

「対数の世界でのマーケティング」の続き
posted by HIROKI tanahashi at 02:42| Comment(0) | TrackBack(0) | 数学 | このブログの読者になる | 更新情報をチェックする

2006年08月19日

「データというメスでネット企業を『解剖』する」ということ

最近、磯崎さんの「グーグルは「広告業」ではない」という記事に関する反応をいろんなブログで目にしたりします。
この記事、元はといえば、磯崎さんのブログ isologue のこのエントリー「グーグルは「すごい」のか「すごくない」のか(財務的に見たGoogle)」から派生しているものだと思います。

磯崎さんの記事も、それについての反応もそれぞれ興味深いんですが、ここではそれらに書かれた個々の内容については一切触れません。
ここで触れるのは、そうした反応をみて感じた「あれ?」っていう部分、磯崎さんの記事の前提となっている、これ↓が意外と外部からの反応の際には抜け落ちちゃってるんじゃないの?ってことについて触れてみようと思うんです。

前回の「プロローグ」で、本シリーズでは、単に定性的にWeb2.0企業を語るのではなく、「データというメスでネット企業を『解剖』する」として、財務データや統計などを用いてネット企業の実像を明らかにしていきたいと述べた。

磯崎さんがわざわざ「定性的に語るのでは」ない方向を示してくれたのに、なぜか「定性的に語る」方向に戻っちゃってるなって感じるものが多いのは、大いに気になるところです。
もちろん、定性的に語ることがまったくナシっていうことじゃないと思うんですが、それだけだとやっぱり表面化している部分に隠された背後のアルゴリズムが見えてこないってことはあると思うんですよね。
で、そのあたりを「メスで解剖」しようっていうのが、磯崎さんの試みのはずなんですが、その主旨がどっかに消えてしまっちゃうのはいかがなものかとも思うんです。Google自体がそういう背後に隠れたアルゴリズムをうまく活用することで、成功している会社だけに、分析する側にもそうした視点がないと、これまでと通りの企業分析に終始してしまうんじゃないかなと懸念を抱いたりもしたわけです。

「「データというメスでネット企業を『解剖』する」ということ」の続き
posted by HIROKI tanahashi at 18:59| Comment(0) | TrackBack(0) | 数学 | このブログの読者になる | 更新情報をチェックする

やっぱりベキ分布ははてブでも

予想はしていましたが、やっぱりこれもベキ分布でしたか。



上のグラフが何のデータを両対数グラフにしたものかというと、このブログのはてブでの人気ブックマークの数です。サンプルが250強しかないこともあって、バラつきもあるし、それほどきれいなベキ分布を示しているともいえませんが、なんとなく傾向としてはつかめます。
※これはブックマーク数を散布図にしたものです。縦軸がブックマーク数になります。ただし、先に書いたように両軸とも対数をとっています。縦軸と横軸が何かわからないという指摘があったので。
(2006/08/19 21:20追記)

左上に2つ飛び出ているのは、
ですね。
この2つは3番目にブックマーク数の多い「ロングテール現象はパレートの法則とまったく対立しない」のブックマーク数より200以上もその数が多いわけです(3倍強!)。きっとはてブのトップページだとか、はてな全体のトップページにも掲載されたという特殊要因のあったエントリーだったからでしょうね。

これきっとはてブ全体で日単位とかでやればもっときれいなベキ分布が見られると思うな。
それにしてもこの世の中、ベキ分布だらけなんだなとあらためて感じます。
「富めるものはますます富む」ように自己組織化のアルゴリズムがどこかで働いているんですね、きっと。

関連エントリー

 
posted by HIROKI tanahashi at 01:43| Comment(0) | TrackBack(0) | 数学 | このブログの読者になる | 更新情報をチェックする

2006年08月18日

ベキ分布を示すWebの法則性

さて、昨日の「流入キーワードもベキ分布だった!」の続編です。

昨日は、Webサイトに流入してくる検索ワードのアクセス数の分布を見てみましたが、今日はその他のWebサイトのアクセスログの数値に関しても同じように両対数グラフ化することで傾向を調べてみました。

ページ単位でのページビュー

まずは一般的な企業サイトにおけるページ単位でのページビューの分布を昨日と同じように、両対数グラフで表現してみました。



途中まではベキ分布にみられる直線の分布をみせています。その後、サイトによって傾きは異なりますが、右のほうで急激に傾斜が変わり、曲線を描いているのがわかります。
このグラフが意味するのは、ページビューが少ないページは割と少なく、いわゆるロングテールになっていないということになります。昨日のキーワードの場合は1、2しか使われないキーワード(キーフレーズ)が大量に存在するためにほぼきれいなベキ分布を見せていましたが、ページビューの場合、そうはならないようです。
テールが短いことの影響が、上位20%が占める割合にもはっきり出ていて、最も急激な落ち込みが見られる赤いグラフの場合では上位20%が全体の89%を占めています。

で、昨日、ページビューの場合、こうした傾向をみせる要因として、サイトの階層構造が影響しているのではないかと考え、構造が割とフラットであるブログであれば、もしかするとベキ分布になるのではと考えたわけです。
しかし、結果は下のグラフをご覧のとおり、ブログであろうと変わりませんでした。



こうした傾向について調べていると、すでに同じような調査が1997年に行われていて、その時でも同じ傾向がみられたのがわかりました。

利用できるデータの数多くが、ウェブの利用状況がZipf分布になっていることを示している。
Alertbox: Zipf曲線とウェブサイト人気度(1997年4月15日)


こうした傾向が見られる理由として、検索エンジンの検索精度が高くなり、下層のページでも検索エンジン経由の流入が高まったことなども影響があるのかと考えましたが、どうも1997年から同じような傾向が見られたのであれば、その理由も正しくなさそうです。
これは結構、謎ですね。比較のため、他の数字も見てみました。
「ベキ分布を示すWebの法則性」の続き
posted by HIROKI tanahashi at 22:37| Comment(0) | TrackBack(1) | 数学 | このブログの読者になる | 更新情報をチェックする

2006年08月17日

流入キーワードもベキ分布だった!

高安秀樹さんの『経済物理学の発見』を読んで、ベキ分布にちょっと興味をもったので、手近なデータでそういう傾向を示すものがないか調べてみました。
調べてみたのは、Webサイトの検索エンジン経由の流入キーワード別アクセス数です。

流入キーワードにはフラクタル性が見られる

ロングテールと物理的制約」でも紹介しましたが、多くのWebサイトの検索エンジン経由の流入キーワードは単純に集計すると、たいていはロングテールみたいなグラフになります。
また、高安さんの本にあった「一般に、ベキ分布にしたがうような現象にはフラクタル性があります」という言葉の通り、検索エンジン経由の流入キーワード数の上位20%が全体の約80%を占め、さらに上位20%のうちの上位20%(つまり全体の4%)も上位20%のうちの80%を占めるという入れ子状の傾向も見られることが多かったりします。
ということもあって、これはもしやベキ分布なのでは?と思って、いくつかのサイトのアクセスログデータを分析してみました。

流入キーワードはベキ分布に従う

まず、下のグラフをご覧ください。



このグラフは、ある2社のWebサイトの検索エンジン経由の流入キーワード別アクセス数を、両対数グラフ(x,y軸ともに数値を対数化したグラフ)で表したものです。縦軸が各キーワードごとのアクセス数(の対数)、横軸がアクセス数が多いもの順にキーワードの数(の対数)をプロットしたものになります。ようは上がアクセス数が多く下が少ない。左がキーワードの数が少なくて右ほどそこに分布するキーワードの数が多いとみていただければOKです。
※どこのサイトかわかってしまっても問題ですので、念のため、数値目盛りは省略させていただきました。

さて、高安さんの本によればベキ分布を示すグラフは両対数グラフで表現すると直線を描くということですが、どうでしょう? 見事なくらい、ほぼ直線を描いてませんか?
ただ、両方のグラフとも左上の分布がちょっとバラついているのがわかると思います。赤いほうは左上が下に垂れていて、紫のほうは逆に上に膨れ上がっています。この傾向があるので、実は両グラフと上位20%を抽出してフラクタル性を確かめると、そうなっていないんです。おそらく直線部分だけを抽出すれば
フラクタル性が見つかるはずです。

では、なんでこんな風に左上が垂れ下がったり、膨らんだりしているかというと、ようするにヘッドの部分のSEM対策で失敗してるか成功しているかってことなんです。当然、垂れ下がってるほうがヘッドの部分が弱くて、逆に膨らんでるほうはWeb以外でのブランディングができているために、その部分のキーワードの検索数が多いんです。ようは社名の認知が高いだけなんですが。反対の見方をすれば、紫のほうは社名が強いのに他のキーワードでのSEMが弱いために、ヘッドが突出して見えてしまっているというわけです。

いろいろSEOやSEMの話は見たり聞いたりしたことがあると思いますが、こういう分析って今までになかったでしょ? 自分でもやってみてちょっと感動しました。
でも、まだこれだけじゃ終わらないんです!

「流入キーワードもベキ分布だった!」の続き
posted by HIROKI tanahashi at 22:03| Comment(2) | TrackBack(1) | 数学 | このブログの読者になる | 更新情報をチェックする

2006年06月05日

はてブのB!は・・・

ふと思った。
はてブのはてなブックマークアイコンは、Bの階乗を暗示してるのだろうか?

参考:階乗 - Wikipedia
http://ja.wikipedia.org/wiki/%E9%9A%8E%E4%B9%97

はてなブックマークアイコン = ブックマーク×ブックマーク×ブックマーク×ブックマーク×・・・・・。

ブックマークが雪だるま式に増えていくってことか?

posted by HIROKI tanahashi at 17:48| Comment(0) | TrackBack(0) | 数学 | このブログの読者になる | 更新情報をチェックする

2006年05月10日

2つの階層構造、2つの分類法(タクソノミーとオントロジー、あるいは、クラスとセット)

s.h.さんの素晴らしいトラックバック「HIIにHCIのアプローチを取り入れる:『アンビエント・ファインダビリティ』を読んで思ったこと」を機にしたエントリー「HCIとHIIの階層構造、生命情報/社会情報/機械情報の階層構造」に対して、またしても、s.h.さんがとっても素敵な返信をくれました。
これはなかなかいいHHI(Hito Hito Interface)ができている w

このエントリで、ユビキタスコンピューティングのアーキテクチャはフラクタルなMVCフレームワークになるという事を書こうと思う。
コンピュータシステムはデータの「入力」「処理」「出力」をするものなので、このフラクタルなMVCフレームワークはちょっと考えてみれば自明な事だと思う。

確かにコンピュータシステムはデータの「入力」「処理」「出力」をする。
しかし、これは同時にコンピュータシステムに限ったことではなかったりもする。

システムにおける「入力」「処理」「出力」

情報理論の創始者クロード・シャノンも「情報源」からの情報が「符号機(送信機)」によってコード化され、「通信路」を通って、「復元機(受信機)」でコードが復号化されて「到達先」に届く通信モデルを描いている(実際にはさらに「通信路」のところに「ノイズ」と描かれている)。
いうまでもなく「通信路」を境にinput/outputがあるわけだ。

そして、これは企業が事業を行う上での組織づくりでも同様だ。
シックスシグマなどで用いられる、ある問題の要因を整理し分析するツールに「特性要因図」というものがある。特性要因図は因果図だとか、フィッシュボーンダイアグラムとも呼ばれ、文字通り「魚の骨」のような図だ(このページの「因果図」を参照)。
これもいわゆるoutputを出す際の問題をinputあるいは「処理」の中から見つけようとするための分析ツールだ。さらにこの特性因果図を描く前に業務フローを分析するためのツールに「プロセスマップ」と呼ばれる図も使うが、これなどはそのまま「入力」「処理」「出力」を描いている(先のページにこの図もある)。

MVCフレームワーク

ということを踏まえれば、s.h.さんの先のエントリーでの狙いである「ある不条理に分断された研究領域の間を架橋する事だ。HCI・ubicomp(ユビキタスコンピューティング)・タンジブルなどの考え方と、web2.0・HII・複雑系などの考え方の両者の間を取り持つ視点を提案」することは非常に理にかなっている。
どの領域も「入力」「処理」「出力」のプロセスを行うものである点で、そもそも分断される必要はないのだから。

それにしても、MVCフレームワークの説明は、ほとんど素人の僕にも非常にわかりやすくて、好感がもてた。

実際、よくできたMVCフレームワークのwebアプリは、
「デザイナはModel-View-Controlの疎結合でデザインする事で、サービス間の結合をゆるくしてデザインしやすくする」というMVCの最初の目的と同時に、
「ユーザはview(webページ)を触ることで、タンジブルにmodel(データ)を扱える」
つまりCはMVCでも消えている。

という説明も納得がいく。

でも、そううまくは問屋が卸さないのかもしれない。

その理由の1つは、フラクタルになっている層が増えるほど、パフォーマンスの劣化やバグの発生が起こりやすくなり、その問題解決のための効率はNP完全問題として指数関数的に落ちていくことになるはずだから。
しかし、今回取り上げておきたいもう1つの問題は、HIIにも関わる別の問題のほうだ。
「2つの階層構造、2つの分類法(タクソノミーとオントロジー、あるいは、クラスとセット)」の続き
posted by HIROKI tanahashi at 23:29| Comment(1) | TrackBack(1) | 数学 | このブログの読者になる | 更新情報をチェックする

2006年05月08日

ブロゴスフィアで起こる「批判」の応酬を鎮めようとすればNP完全問題にぶつかるかもしれない

ジョージ・ジョンソンの『量子コンピュータとは何か』という本を紹介した際に、核爆発のシミュレーション実験を行うための計算は、現存する中で最速の部類にはいるスーパーコンピュータを用いても、核爆発の途中の100万分の1秒を再現する計算を行う処理に4ヶ月間もかかるという話を紹介した。
つまり、核爆発のシミュレーションのための計算はどんなコンピュータを使っても処理しきれないくらい複雑なプロセスが必要だということだ。

セールスマン巡回問題


同様に、コンピュータを使っても解くのがほぼ不可能で、数学者にとっても難問である問題の1つに「セールスマン巡回問題」と呼ばれるものがある。
これは所定の特定の都市のリストから逆戻りすることなしに(つまり来た道を折り返すことなしに)すべての都市を1回ずつ訪問するための最短経路を見つけよという問題だ。

これがなぜ難問かを具体的な数字を使って紹介しよう。
例えば、訪問先が3都市なら、(3×2×1)/2=3通りの選択肢から最短経路を選べばよい。
これが訪問先が10都市になると、(10×9×8×7×6×5×4×3×2×1)/2=1,814,400通りの選択肢となる。
そして、この選択肢の数は当ブログにおいてはもはやお馴染みの指数関数的な増加をみせる。
11都市なら約2000万、12都市なら約2億4000万、そして、20都市なら100京(1兆の100万倍)を超える。30都市くらいになるとスーパーコンピュータでも(この計算方法で行うと)何億年も処理にかかる数字となってしまう。

この手の問題は、NP完全問題 (NP-complete problem)と呼ばれている。

「ブロゴスフィアで起こる「批判」の応酬を鎮めようとすればNP完全問題にぶつかるかもしれない」の続き
posted by HIROKI tanahashi at 23:16| Comment(2) | TrackBack(1) | 数学 | このブログの読者になる | 更新情報をチェックする