カリフォルニア州サンディエゴで開催中の「Teradata PARTNERS 2010」では、米国時間の10月26日午前、ユーザー事例講演の目玉ともいえるeBayが登場した。
eBayは9000万人以上のアクティブユーザーを誇る地球規模のインターネットオークションサイト。2009年は600億ドルの販売を記録、扱うデータ量も膨大なものになっている。1日に処理するデータ
量は80ペタバイトを超え、1日にデータウェアハウスにロードされるデータ量も50テラバイトに上るという。毎日、5000人を超える社員やアナリストが6ペタバイトの巨大なTeradataエンタープライズデータウェアハウスにアクセスし、何百万ものクエリでインテリジェンスを得ている。2008年のPARTNERSでは、ペタバイトを超える大規模なデータウェアハウスを構築す
るユーザー企業に「Petabyte Power Players」アワードが贈られたが、eBayも、Wal-mart、Bank of America、Dellらと共に「ペタバイト倶楽部の初代メンバー」に名を連ねた。
「eBayではデータ分析が、トップから現場に至るまで、企業のDNAとなっている」と話すのは、同社でアナリティックプラットフォームを担当するシニアディレクター、オリバー?ラッツェ
dekaron RMT
スバーガー氏だ。
「創業以来、1日当たりの販売金額、販売件数、つまり販売の密度をいかに高めていくかを追求してきており、そのために商品の探しやすさをデータ分析によって築き上げてきた」(ラッツェスバーガー氏)
●シンプル&イージーを追求
同社はこの9月、「eBayファッション」を一新したばかりだ。上着のスタイルやサイ
ズ、ズボンのウエストサイズや股下サイズをクリックしていくと、数十万着のスーツも数十着へと絞り込める。利用者は、自分や家族の各種サイズや好きなブランドなどを「Fashion Shopping Profile」として登録、必要に応じてプロファイルを切り替えながらスピーディーに商品を選択することもできる。
「'90年代にサービスを開始したときは、どの商品カテ
RS RMT
ゴリーも同じインタフェースだったが、ファッションと家電製品は特性が全く異なる。そこでわれわれはカテゴリーごとに最適なインタフェース、つまり“バーチカルな体験”を提供できるよう努めてきた」(ラッツェスバーガー氏)
商品を必要としている人に対していかに簡単にスピーディーに商品を見せていけばいいのか、eBayでは絶えずこうしたインタフ
Tera RMT
ェースの改良を続けており、それを支える分析基盤を担当するラッツェスバーガー氏の課題も多い。
「分析負荷の85%は新しいものか未知のものだ。既に知られている数値指標はあまり価値がない。このためデータを調べ、仮説を立て、テストを繰り返すことが分析志向の組織の根幹となる」(ラッツェスバーガー氏)
同社の分析基盤は、6ペタ
バイトものTeradataエンタープライズデータウェアハウスを核に据え、5000人以上が情報を共有しているが、より価値の高い未知のインテリジェンスを探し出すため、異なるシステムも活用している。プロジェクトコードネーム「Singularity」と米ClouderaのHadoopディストリビューションだ。
●Hadoopも連携、「データは1バイトも捨ててはいけない」
RF Online RMT
「特異点」を意味するSingularityは、利用者の行動履歴をWebサーバが生成するログデータから把握し、購買履歴と掛け合わせながら、より高度な分析を行うeBayのプロジェクトコードネームだ。TeradataとeBayが共同開発したもので、2008年のPARTNERSでは「Extreme Data Appliance」として製品化もされている。少ないユーザーが大量のデータを分析する目的に適した
比較的ローコストなTeradataデータウェアハウスであり、大容量のディスクを採用することで経済的に187ペタまでスケールさせることができる。
Webログデータの分析には、先進的な企業がHadoopを使い始めているが、テーブルの複雑なジョインが難しい、負荷の管理ができない、データマートと同じでガバナンスが難しい、などの欠点がある。
「Singularityは、ちょうどエンタープライズデータウェアハウスとHadoopの良いところを合わせたシステムを目指して開発した。もちろん、Hadoopは優れた技術であり、われわれもイメージの分類やパターン認識などに活用している。今後はTeradataとの双方向の連携も進み、利用は拡大していくだろう」とラッツェスバーガー氏は期待する。
一般には、Web
ログは「非構造化データ」とされているが、ラッツェスバーガー氏はその呼び方を好まない。
「わたしは“非構造化”という言葉は好きではない。どんなデータも何らかの構造を見つけ出し、情報として分析することができるからだ。財務的に許されるなら1バイト足りともデータは捨ててはいけない」(ラッツェスバーガー氏)
ラッツェスバーガー
氏はこうしたデータを「セミ?ストラクチャード」(半構造化)と呼び、磨けば輝くダイヤモンドの原石のように大切にする。Singularityに蓄積し、利用者の昨年の行動履歴と今年のそれを比較したり、購買履歴と掛け合わせて生かしている。
「特効薬はない。どの技術にも一長一短があり、複数の技術を相互補完的に連携させることが重要だ。それにより行動
履歴と購買履歴を組み合わせて分析でき、そこから素晴らしいインサイト(洞察)が得られるはずだ」とラッツェスバーガー氏は話す。
●分析のための社内コミュニティーも
「分析がDNA」というeBayにあっては、分析のための社内コミュニティーづくりも大切な取り組みだ。eBayの分析基盤ではテーブル総数が6万に上る。メタデータを幾ら整備し
ても、利用者は求めているものをなかなか見つけられない。
ラッツェスバーガー氏は「harmony」と呼ぶ社内SNSを立ち上げ、利用者同士が互いに教え合ったり、優れた分析データをレコメンドできるようにした。マイページに自分の分析データを貼り付けることで、ディスカッションを通じて貴重なフィードバックを受けることもできる。
「フォ
ローしている社員が新しいアナリティクスを作成した、あるいは改良した、ということがすぐに分かる。レイティングしたり、レコメンドしたり、共有することで互いの知見を分かち合うことができる」とラッツェスバーガー氏は話す。【浅井英二,ITmedia】
引用元:
Perfect World rmt