Hadoop & Spark Conference 2016

Hadoop / Spark Conference 2016に参加してきた。大井町というあまり行かない場所で、以前近くの会場で彷徨ってしまった反省を活かし、今回はりんかい線からJRを中央突破してJR東口から会場に行けた。

聞いたもの

データドリブン企業における、hadoop基盤とETL #hcj2016 from Cloudera Japan

On-Premises Hadoopクラスタ構築の苦労体験と運用ノウハウ(資料公開なし)

今あらためて考えるHive ～ユースケースの広がりにより顕在化した課題と対応～(資料公開なし?)

Hiveを高速化するLLAP from Yahoo!デベロッパーネットワーク

Maintainable cloud architecture_of_hadoop from Kai Sasaki

所感

はじめはHadoopの話を聞いて、後半からSparkのセッションを聞こうと思っていたが、Sparkのセッションが満員御礼で心が折れたのでHiveの話を聞くことにした。Hiveも下回りにSpark使えたり、速くなったりして手軽に使えそうな感じになってきている。

なんかMapReduce(MR)がオワコン扱いになりつつかるけど、未だにHadoop 0.21の頃に書いたMRのジョブを現役で動きかし続けている。1日分のデータのバッチ処理なのでスケールの必要があまりなく、動いているのを変える必要がないのでそのままになっている。Javaが面倒だったのでHadoop Streamingを使っているが、今ならSparkでScalaかPythonで書いただろう。新規に書くならMRを使わないけど、世間には書き直すのが面倒なMRのジョブがまだ結構動いているんじゃないかと思ったりする。

HadoopやSparkの話はどうしてもエンタープライズ系でビックデータを扱う話になりがちなものに対して、単純に集計処理や機械学習の生産性を上げるライブラリとして使いたいだけだったりするのでうまく噛み砕くのが難しい。