集合知と多量情報の可視化アルゴリズム本 Programming Collective Intelligence

先日購入したBen FryのVisualizing Dataとあわせて買ってみた、Programming Collective Intelligence: Building Smart Web 2.0 Applications という本もかなりよさげ。
端的にいうとWEB2.0コンテンツ用に特化した、統計解析の理論とアルゴリズムの解説本。

いわゆる「これを買った人はこれを買ってます」を筆頭に、市場予測やスパム抽出、特徴データのグルーピングなど、集合知を抽出するアルゴリズムが大集合してる感じです。各アルゴリズムの原理の説明から、シンプルな自力実装までが書いてある感じっぽい。こういう系は数式だけあって理解不能か、動作がライブラリに隠蔽されてて理解不能で手が出せなかったけど、この本あれば大分理解できそう。以下、乗ってる内容メモ。

・Amazon的なリコメンドのしくみ
・データのグループ化(クラスタリング)
・ページランク的なデータの評価
・ベイズフィルタ
・決定木
・価格決定
・パターン認識
・遺伝アルゴリズム


書評を見てると、大規模なサーバーサイドサービスで使うには、実装がシンプルすぎてスケールに耐えられないらしいけど、クライアントサイドでデータのビジュアライズやマッピングに使う分には無問題なんじゃないかと。本来ならサバ屋さん向けのロジック本だけど、これはFlash使いならクライアントで実践レベルで振り回せそう。

印象として現状国内では、データの単純なプロットを超えて、マイニングレベルで情報の可視化できるFlasherほぼいないと思う。なので、むしろこういう系がFlashでできるようになると、情報デザ系が好きなFlasherには強力な秘密兵器になりそうな予感。そういうわけでこれから勉強します。

言語がPythonなのがアレですが。数式系のアルゴリズムだしソースは読めないことはない。
そういうわけでいい感じです。

最近抽象レベルのFlashのコーディングと最新技術自体には飽きたので、こういう表現の幅を増やせる周辺知識を増やしたいデス。
誰か一緒に買って、勉強会というか情報交換してくれる人募集。

あと偶に人に聞かれることですが、gameとか作ってるflasherがamaznodeとか情報マッピングする系やる為の、基礎技術のとっかかりには、離散数学―コンピュータサイエンスの基礎数学 (マグロウヒル大学演習)がお勧めです。自分のプログラミングのバックボーンは、大学時代に買ったこれ1冊です。

コメントをどうぞ