レポート

Hadoopは終わらない ―3年ぶり開催「Hadoop / Spark Conference Japan 2019」で日本人開発者が語ったこと

この記事を読むのに必要な時間:およそ 4 分

「大きな変化を迎えているHadoopのいまを皆さんに正しくお伝えしたいと思い,3年ぶりに本カンファレンスの開催に踏み切った」⁠ ― 3月14日,東京・大井町きゅりあんにおいて日本Hadoopユーザ会主催の「Hadoop / Spark Conference Japan 2019」が開催されました。

基調講演の模様,前回と同じ会場で開催された

基調講演の模様,前回と同じ会場で開催された

基調講演に先立ち,開催の挨拶を行った日本Hadoopユーザ会の濱野賢一朗氏(NTTデータ)は,⁠本カンファレンスの開催を発表したとき,"もう開催されないかと思っていた"とずいぶん言われました」と発言していますが,たしかにこの3年間でHadoopを取り巻く状況は大きく変わり,⁠Hadoopは終わった」というネガティブなニュアンスで語られることも増えてきました。3年前,さらに遡ればビッグデータブームが始まった2011~12年ごろと比較すれば,Hadoopがテクノロジトレンドとして話題に上ることは大幅に少なくなっており,データビジネスにおけるHadoopのブランド価値が徐々に低下している印象は否めません。

挨拶に立つ濱野賢一朗氏

挨拶に立つ濱野賢一朗氏

Hadoopが"オワコン"扱いされる大きな理由として濱野氏は,メインコンポーネントとしてこれまでのHadoopを支えてきたMapReduceが,並列分散処理技術としてその役割をほぼ終えてしまったことを挙げています。ですが,MapReduceに代わる分散処理エンジンはSparkを筆頭にいくつも登場しており,Hadoopは「並列分散処理を支える基盤としてまだ主流であり,進化を続けている」⁠濱野氏)ことも事実です。また,MapReduceとともにHadoopのメインコンポーネントであったHDFSはいまだに健在ですが,こちらもOzoneなど新たな技術のによりプロジェクトとして大きなターニングポイントを迎えています。

いきなりの「オワコンか?」提起

いきなりの「オワコンか?」提起

「Hadoopは終わった」のではなく,並列分散処理基盤として技術的に新しいフェーズに入った状況にある,その現状を正しく伝えたい - 本稿では基調講演に登壇した二人の日本人開発者の内容をもとに,Hadoopがいま直面している状況と,新たに向かおうとしているゴールについて俯瞰してみたいと思います。

クラウドサービス,コンテナ技術の普及がHadoopに変化を促す

基調講演のトップバッターを務めたのは現役のHadoop PMCメンバー(Project Management Committee: Apache Hadoopの主要開発者)で,おもにHDFSの開発においてコミュニティをリードする鯵坂明氏(ヤフー)で,講演タイトルは「Apache Hadoopの現在と未来」でした。3年前もほぼ同じタイトルで基調講演を行った鯵坂氏ですが,その内容は3年前とだいぶ異なっていました。

鯵坂明氏

鯵坂明氏

プレゼンの冒頭で,カンファレンス参加者の事前アンケートによるHadoopの利用状況を紹介したあと,鯵坂氏は並列分散処理を取り巻く現在のトレンドとして以下の4つを挙げています。

  • クラウドサービスでの利用が増加
  • データ量/計算量の増加
  • 機械学習/ディープラーニングの流行
  • コンテナ技術の流行

中でもクラウドサービスの利用増はHadoopの世界にも大きな変化をもたらしました。とくにHDFSと大きく関係するのは「Amazon S3」「Azure Blob Storage」といったメジャーなクラウドベンダが提供するクラウドストレージ(オブジェクトストレージ)をデータレイクとして利用するユーザが大幅に増えたことです。現在では「OpenStack Swift」「Azure Data Lake Storage」⁠さらに「Alibaba Cloud Object Service」⁠Tencent Cloud Object Storage」⁠対応中)といったクラウドストレージとも連携しており,パフォーマンスやデータローカリティの改善が日々図られています。

また,2つ目のトレンドとして挙げられたデータ量/計算量の増加によるスケーラビリティの限界を突破するため,HDFSでは

  • 複数のクラスタを束ねてマスタの負荷を軽減するフェデレーション機能「HDFS/YARN Router-based Federation」
  • S3のようなオブジェクトストレージ機能をHadoopで実現する「Ozone」
  • ディスクの物理容量を大幅に節約する「HDF Erasure Coding」

といった機能を実装してきたことを鯵坂氏は挙げています。とくに鯵坂氏も大きく開発に貢献したイレージャコーディングはストレージのディスクスペースを大幅に節約しながら信頼性も担保することから,Hadoop 3.0の最大のアップデートとして注目されました

3つ目のAIに関してもちょうど3年ほど前からHadoop上での連携が進んでおり,現在ではGPUアイソレーションなどのYARNの最新機能を活かし,TensorFlowやPyTorchといったディープラーニングフレームワークを動かす「Submarine」プロジェクトが進行中です。なお,プロジェクト名ついて鯵坂氏は「人間をもっとも深い場所まで連れて行く乗り物(潜水艦)⁠に由来していると説明しています。

鯵坂氏が挙げた4つのトレンドのうち,ここまで説明した3つ(クラウドストレージ,データ量の増加,AIの流行)に関しては,3年前においても十分予想されていたトレンドであり,Hadoopコミュニティも十分に対応できていたと思われます。しかし,4つめのコンテナ技術の流行,とくにKubernetesの劇的な拡がりは少なくとも3年前の時点では予測が難しかったのではないでしょうか。⁠現在,Kubernetsが大きく注目を集めているが,HadoopとKubernetesはできることはそれほど変わらないはず。なぜKubernetesだけが流行っているのか,それを考えると(Hadoopプロジェクトで)今後,埋めるべきものが見えてくる」と語っています。

Kubernetesの流行から見えてくるものがある

Kubernetesの流行から見えてくるものがある

並列分散処理技術として,時代のニーズを取り込みながら進化してきたHadoopですが,今までと異なるフェーズでさらに成長していくためには何が必要なのでしょうか。鯵坂氏は「未来予測は難しいけど,個人的には利用しやすさをさらに高めていきたい」と語っており,具体的な「数年後までの野望」として

  • Java 11対応を完了させる
  • リリースサイクルの加速
  • プロダクトのさらなる分割

を挙げています。Hadoop 3.0ではJava 9対応を完了させましたが,やはりJavaの最新バージョンに対応させることはHadoopプロジェクトにとってもっとも重要なマイルストーンだといえるのかもしれません。

「並列分散処理を取り巻く状況の変化に追従しながら,Hadoopは進化し続けてきた。OzoneやSubmarineなどの新しいプロジェクトも生まれている。これからも進化を続けるHadoopにぜひ期待をしてほしい。コミュニティにはこれまでのコントリビューションにとても感謝しているし,これからのコントリビューションも大歓迎。もっと便利なHadoopをめざしてがんばりましょう」⁠ ―最後にこう講演を結んだ鯵坂氏。Hadoopコミュニティを現役でリードするPMCとして,"もっと便利なHadoop"を作り出すためにさらなる活躍が期待されます。

鰺坂氏の講演に続き,進化するHadoopを象徴する技術として,鰺坂氏と同じくHadoop PMCメンバーとして活躍中のArpit Agarwal氏(Cloudera)による新たなオブジェクトストレージ技術Ozoneの解説が行われた

鰺坂氏の講演に続き,進化するHadoopを象徴する技術として,鰺坂氏と同じくHadoop PMCメンバーとして活躍中のArpit Agarwal氏(Cloudera)による新たなオブジェクトストレージ技術Ozoneの解説が行われた

鰺坂氏の講演に続き,進化するHadoopを象徴する技術として,鰺坂氏と同じくHadoop PMCメンバーとして活躍中のArpit Agarwal氏(Cloudera)による新たなオブジェクトストレージ技術Ozoneの解説が行われた

著者プロフィール

五味明子(ごみあきこ)

IT系の出版社で編集者としてキャリアを積んだ後,2011年からフリーランスライターに。フィールドワークはオープンソースやクラウドコンピューティング,データアナリティクスなどエンタープライズITが中心。海外カンファレンス取材多め。Blog 「G3 Enterprise」やTwitter(@g3akk),Facebookで日々IT情報を発信中。

北海道札幌市出身/東京都立大学経済学部卒。

コメント

コメントの記入