IT Cutting Edge ─世界を変えるテクノロジの最前線

第5回 データアナリティクスがLinkedInの原動力 ─世界のプロフェッショナルをつなぐソーシャルネットのビッグデータ活用術

この記事を読むのに必要な時間:およそ 4 分

オープンソースからプロプライエタリまで,最高のアナリティクスには最高のツールを

LinkedInはプロプライエタリからオープンソースプロダクトに至るまで,アナリティクスのシーンに応じてさざまなITソリューションを使い分けています。セッションの後半は,ウー氏からLinkedInのアナリティクスにおけるデータフローの説明がされました。

LinkedInのデータフローにおいてはペタバイト級の生データをキロバイト級のインサイトに変えるまでが1サイクルです。まずはサイロとして存在するさまざまな外部データソース ─Salesforce.com,Oracle Eloqua,D&B(Dun & Bradstreet,2億以上の企業の格付け情報が格納されているデータベース⁠⁠,doubleclick,そしてLinkedIn自身がもつデータベースなどに格納されているデータは,Oracle DatabaseとEspresso(LinkedInが開発したオープンソースのNoSQLプロダクト)で構築されたOLTPシステムにいったん格納されたのち,オフラインのHadoopクラスタに集約されます。この際,Oracle/EspressoとHadoopの間でデータの一貫性を保つために,LinkedInが開発したオープンソースの分散型データ変更通知システム「Databus」が使われています。

一方でWebログなどのイベントデータ(LinkedInはイベントデータを400のタイプに分けている)は分散型メッセージングシステムの「Apache Kafka」を使ってこれもHadoopクラスタに集約されます。Databus同様,KafkaもLinkedInが開発したオープンソースプロダクトですが,パブリッシュ/サブスクライブ型であり,なおかつオンラインとオフラインの両方の非同期処理が可能という点が特徴です。

ウー氏は「LinkedInには数多くのWebサーバが分散して存在しており,大量のイベントデータを効率よく収集するにはオフラインシステムとも非同期に連携できるパブリッシュ/サブスクライブ型のシステムが必要だった。Kafkaを利用することで,分散したサーバのひとつひとつがメッセージのパブリッシャーとして存在し,Hadoopはそれらのメッセージを聞くリスナー,つまりサブスクライバとして機能する」と説明しており,大量のストリームデータの収集を最適化するためにKafkaを開発したことを強調しています。

LinkedInのデータアナリティクスはペタバイト級のビッグデータをキロバイト級のスモールデータまで落とし込んでインサイトを得るまでが1サイクル

LinkedInのデータアナリティクスはペタバイト級のビッグデータをキロバイト級のスモールデータまで落とし込んでインサイトを得るまでが1サイクル

Hadoopクラスタに集約されたデータはELT処理とアグリゲーションが行われ,オフラインシステムとして連携しているTeradataによってデータウェアハウジングが実施されます。もっともアナリティクスデータをいつまでもオフラインに置いておいてはメンバーや顧客企業にサービスを提供できません。今度はこのオフラインデータを再びオンラインに戻す必要があります。LinkedInはこのオフライン→オンラインのプロセスにおいて,これも同社が開発したオープンソース「Voldemort」を利用し,レコメンデーションなどのデータを配信しています。

Voldemortは分散型キーバーリューストアストレージで非常にスケールしやすく,RDBでは格納しにくいレコメンデーションやスコアリングといったデータを扱うのに適しているだけでなく,データの自動レプリケーション機能を備えているのでフォルトトレランスにもすぐれています。またインメモリキャッシングも内蔵しているため,パフォーマンスも担保でき,メンバーや顧客企業に対してストレスのないサービスを提供するのに役立っています。

LinkedInほどの先進的なIT企業なら,すべてのデータフローをオンライン&オープンソースで処理できそうなイメージがあるのですが,ウー氏にお話を伺ったところ「オンライン - オンライン - オンラインのデータフローではパフォーマンスが遅すぎて話にならない。いったんオフラインに落としてHadoopとTeradataでアグリゲーションを行っているから,高速なデータアナリティクスが実現している」と回答してくれました。

オープンソース開発においても「ニーズに応じて必要なツールを開発しているのであって,オープンソースがすべてだとは思わない。TeradataはHadoopとの相性が良く,パフォーマンスや精度の高さに加え,JSONデータを扱えるところもメリット」と語っており,オープンソース/プロプライエタリにこだわることなく,ベストインクラスのアナリティクスを生み出すためにベストインクラスのソリューションを選んでいるという印象を受けました。

良いデータアナリストに必要なのはパッション!

良いデータアナリストに必要なのはパッション!

セッション後の個別取材で,リー氏「LinkdeInはセールス部門にもSQL文を書いてHadoopの生データから分析するスキルをもっているスタッフが多い。だから我々はデータサイエンティストという呼び方はあまりしない」と話してくれましたが,アナリティクスチームに限らず,全従業員がデータアナリティクスの重要性を認識しており,それに伴うスキルをもっているところにLinnkedInという企業の強さが表れています。だからこそ,アナリティクスチームには「スキルよりもIQよりもデータへのパッションが重要」と断言するリー氏。

世界中のプロフェッショナルをつなぐソーシャルネットワークを支えているのは,高いスキルと熱いパッションをもつデータアナリティクスのプロフェッショナルたちだといえそうです。

セッション終了後,多忙にもかかわらず個別取材に応じてくれたお二人。ありがとうございました

セッション終了後,多忙にもかかわらず個別取材に応じてくれたお二人。ありがとうございました

著者プロフィール

五味明子(ごみあきこ)

IT系の出版社で編集者としてキャリアを積んだ後,2011年からフリーランスライターに。フィールドワークはオープンソースやクラウドコンピューティング,データアナリティクスなどエンタープライズITが中心。海外カンファレンス取材多め。Blog 「G3 Enterprise」やTwitter(@g3akk),Facebookで日々IT情報を発信中。

北海道札幌市出身/東京都立大学経済学部卒。

バックナンバー

IT Cutting Edge ─世界を変えるテクノロジの最前線

バックナンバー一覧