IBMビッグデータ専門家のいう「Hadoopの人気減が著しい」はどういうことか?

「2016年のビッグデータ界隈におけるHadoopの人気減が著しい。私の想定以上だ」。

IBMでビッグデータエヴァンジェリストを務めるJames Kobielus氏が、2016年のビッグデータ界隈を振り返って述べた言葉が話題になりました。

KDnuggetsというIT系メディアサイトに掲載されたこの記事にて、Kobielus氏はさらに次のように話しています。

「(Hadoopの中核となる分散処理フレームワークの)MapReduceや(Hadoop上の分散データベースの)HBase、さらに(分散処理ファイルシステムの)HDFSでさえ、データサイエンティストにとって重要ではなくなってくるだろう」。

つまりHadoopの3つの基礎構成要素のいずれについても、活用が減ってくるというのです。

一時はビッグデータ処理の本命として、もてはやされたHadoop。Kobielus氏によるこのコメントを受けて、「Hadoopはダメだ」派と「いや、そんなことはない」派のそれぞれが、相次いでブログ記事を発信する事態にもなりました。

実際のところHadoopの活用状況はどうなのか?Kobielus氏による発言の真意は別として、ちょっと整理してみました。

Hadoopは必要、ごく一部の企業にとっては

Kobielus氏のコメントを受けて書かれた記事の中で、特に反響の大きかったのがこちら。Innovation EnterpriseというBtoB向けITメディアで編集長を務めるGeorge Hill氏によるもの。「Hadoopはダメだ」派です。

Hadoopに関する調査データなどを示した上で、Hadoopを使ったビッグデータ処理への需要はあるにはあるが、企業がうまく使いこなせていない、と結論づけています。具体的には、

・Hadoop関連の求人は2016年までの18か月間で43%増えているが、使いこなせる技術者が育っていない
・そもそもHadoopが必要になるだけのデータ量を抱える企業はごく一部。多くが2~10TB程度の少ないデータ量でHadoopを使おうとしている。

とのこと。

Richard Jacksonというビッグデータ領域のディレクターも、この意見に加勢しています。

彼によると、GoogleやFacebook、Yahooのような企業でない限り、そもそもHadoopを使う必要性もなければ、扱える専門家の確保も難しいだろうとのこと。

イギリスで活動するJackson氏は、企業が保有するデータ量の傾向について、次のように語っています。

「アメリカのテック企業は、世界の他の企業も自分たちと同様の規模のデータを有すると勘違いしている。過去数年でわれわれが関わったヨーロッパの多くの企業は、せいぜい1~20TB規模。100TB以上のデータを持っているケースはめったにない」。

こういった意見に対して、「大企業に限れば、銀行や通信、製造、保険などの分野で導入が急増している!」という反対派の記事もあったりします。

ただよくよく著者の経歴を見ると、主要Hadoopベンダーの一つHortonworksの中の人なので、ちょっとポジショントークっぽいなとも思ったり。

少なくともこれら現場レベルの人たちによる記事だけをみると、こういうことのようです。

つまり大量のデータを抱えており、かつHadoopを使いこなせるだけの人的・金銭的リソースがある企業なら使う価値があるが、そんなのはごく一部に過ぎないと。

この辺りは調査会社が出す有料レポートとか買えば、さらに数字でも検証できるんでしょうけど、どれもかなり高いのでちょっと割愛。

現場レベルの声だけでなく、もう少し違ったマクロな視点でも見てみましょう。もしHadoopの人気が急減しているのなら、主要なHadoopベンダーの動向にも影響しているはず。

そこでHadoop関連製品の大手、ClouderaとHortonworksの2社の動きをみてみました。

Hadoopブランドからの脱皮

色々調べる中で出てきたのは、ビッグデータの処理が従来のオンプレミスからクラウドに移行する流れが出てきているほか、AIの活用も増えてきていることで、2つとの相性が必ずしも良くないと言われるHadoopの存在感が徐々に薄れてきているということ。

さらにそうした中で、ClouderaとHortonworksが、これまで前面に打ち出してきたHadoop企業というブランドから脱皮しようとしている点です。

順を追って説明していきましょう。

調査大手のForresterは今年3月、「The cloud is disrupting Hadoop」(Hadoopを駆逐するクラウド化の流れ)という記事を発信。この中で著者のBrian Hopkins氏は、次のように述べています。

「より多くの企業がオンプレミスでHadoopを構築する複雑さを避け、クラウド化を進めている。そうなるにつれ彼らがHadoop以外の選択肢を探す流れも進むだろう。つまりHadoopベンダーは、収益源をオンプレミスからクラウドに移そうとするだろう」。

しかしそれは難しいとHopkins氏は考えているようです。

なぜなら保有データのセキュリティやガバナンスといった現状のHadoopの利点とされる項目は、どれもオンプレミスだからこそ。クラウド化とは矛盾してしまいます。

Hopkins氏はHadoopベンダーの関係者による話として、「もしわれわれがクラウドを本当に理解していたら、Hadoopは今のような仕組みにはなっていなかっただろう」というコメントも紹介しています。

こうした動きを踏まえて、Hopkins氏はこう予測しています。

ビッグデータ処理のクラウド化が進む中で、HadoopはAmazonやGoogle、IBMといったクラウド勢によるサービスに対抗できない。それに伴いClouderaやHortonworksなどのベンダーが、Hadoopブランドから離れる動きが次の2~3年で加速するだろうと。

クラウド化とAI化、どちらも難しく

少なくとも2019年までにはビッグデータ処理の大半がクラウド化する、というもみられますが、そうした中で、Hadoopベンダーがブランディングを変えようとしている、という意見は先のHopkins氏だけではありません。

ITジャーナリストのArik Hesseldahl氏はCIO誌の記事にて、Clouderaがバズワードとしての旬が過ぎたHadoopから、機械学習プラットフォームとして脱皮しようとしていると主張。4月にニューヨーク証券取引所で上場を果たしたばかりの同社について、こう触れています。

「150ページに及ぶS-1上場申請書の中で、Clouderaは主要事業である”Hadoop”について14回しか触れていない。一方で”machine learning”という言葉は70回以上も繰り返している」。

確かにS-1上場申請書の冒頭で、自社を「データマネジメント及び機械学習、アナリティクスのプラットフォーム」と言及したのをはじめ、繰り返しこの単語を登場させています。

「しかしClouderaの主要事業は、疑いの余地なく依然としてHadoopだ」(Hesseldahl氏)。

S-1上場申請書には、キーワード"machine learning"が頻出している
S-1上場申請書には、キーワード”machine learning”が頻出している

また競合のHortonworksも同様の動きをみせているようです。4月3日付のForbes誌による記事の中で、2016年度の決算発表時の同社によるコメントが紹介されています。

「人工知能や機械学習など、ビッグデータ市場のトレンドとなる新技術への研究開発投資を一層強化していく」。

両社によるAI技術強化の取り組みはうまくいくのでしょうか?先のForbes誌の記事を書いたGil Press氏は、そうは考えていないようです。ForresterのHopkins氏による次のコメントを引用しています。

「Hadoopがクラウド向けに設計されていないのと同様に、ディープラーニングに求められる行列演算にも向いてない」。

クラウド勢がAIの活用に適した環境を整えている中で、Hadoopベンダーがこうした流れにキャッチアップするのは難しいといいます。

なぜHadoopが機械学習に最適ではないのかという点については、この記事とかこの記事とかが分かりやすかったですが、あまり技術的な方面に立ち入るとウソ書きそうなので割愛。

ここまでの流れをまとめると、
・Hadoopの人気が衰えてきているとの声が出ている
・そもそも必要性のない企業が導入するケースが目立つほか、必要性があっても技術者の確保が難しい、という現場の声がある
・またマクロ的な流れとして、ビッグデータ界隈がクラウド化・AI化に進んでいるが、Hadoopがこの2つに適応するのは技術的な観点から難しい

ということになります。