Kaggle体験記（TopCoder機械学習マラソンとの違いなど）

tanzakuさん、今年もありがとうございます！ Competitive Programming （その2） Advent Calendar 2016 - Adventarの25日目！

はじめに

Kaggle（https://www.kaggle.com/）も、TopCoder機械学習マラソン（TopCoder）も、広義の競技プログラミング！ということで、今回Kaggleに軽めに参加してみました。これらの違いについて取りあげようと思います。機械学習そのものについては取り上げてません。あしからず。

Kaggleの特徴（TopCoderと異なる点）

予測データのみを提出すれば良い。

TopCoderは、マッチにより、予測する実行コードを提出する形式か、予測したデータを提出する形式か違ってきますが、Kaggleは、ほぼ予測データのみ提出です（例外はある）。そういうわけで、ライブラリや計算資源を好きなだけ使えます。

参加しやすい

ページのレイアウトが分かりやすく、いたれりつくせりで、TopCoderのように管理がされなくなったりということもなさげで（過去問が動かないとか）、全体的に、ちゃんとしてます。
とりあえず提出できるサンプルデータも用意されてるので、最初の１歩は踏み出しやすいです。
運営の方から、「新たな検索機能を追加したので、感想をきかせてね」といった連絡がリアルタイムで送られてきて、驚きました。積極的に改善しようという姿勢がうかがえます。

マッチの開催中でも、フォーラム内でなら、解法を議論してよい。

解法そのものについて直接言及しているのもあります（こうすると、何点までは行けるとか）
データのビジュアライズなど、面倒そうなことをやってくれてる親切な人もいます。
ただ、上位の人は、下位の人向けへのヒントをとどめて、本当に上位にいけそうなアイディアを公開するのは控えているようです。

マッチの開催中でも、コードを公開することができる。

後から始めたほうが情報が入る分有利で、公平でないとか、そういう議論もあるようです。
- そんな人はTopCoder。TopCoderは議論禁止・コード公開禁止、また、コード提出の場合は計算資源も全員いっしょなので、そういう意味で公平な競争がしたい人にはおすすめ。
  - ただ、TopCoderのようにコード提出形式のもはじまったようです。
  - 上位の情報は書いてないので、上位の人たちは、別にこのままのルールでも、公平な競争ができてると感じているかも。でも、中位以下の人のモチベーションがどうなるか気になります。

書いたコードを、Kaggleのブラウザ上で実行できる。

TopCoderでもできなくはないけど、ファイルも取り扱えたり。folkもできたり、高機能。多くのライブラリも使えます。Dockerのおかげ？
計算資源がしょぼいのを除けば、ブラウザ上だけでなんでもできそう。すごい。

最終提出データを2種類選択できる。

TopCoderだと1番最後に提出した1つになるので、万が一間違ったものを提出したことを考えると、時間ギリギリで提出するのは無謀。
1つは過学習したやつ、1つはクロスバリデーションしっかりやった無難なやつといった、作戦もありそうです。

参加者のレベル

語れる立場にありません（泣）。マシな結果を出してからにします。ただ、最近はTopCoder→Kaggleへ参戦して結果を出しているトップクラスの方や（colunさん・Komakiさん・marek.cyganさん・iwiさんなど）、またKaggleからTopCoderへ参戦してる方もいます（fugusukiさんなど）ので、強い人はどこでも強いということだけは言えるでしょう。

Kaggle体験記じゃ

今回、参加したのはこれ。
www.kaggle.com
作業過程20時間をすべて録画していたので、時刻つきで、見直してみました。流れは分かるかと。

(00:00:00) なんでもいいので、最低限の解答を提出しよう。自分は大風呂敷を広げて暴走する悪癖があるので、まず簡単な解をめざす！
(00:31:54) Kernelsってところで、他の人のコードが見れて、ショック！folkって書いてあるってことは、これを使っていいのか？同じぐらいの得点の人もたくさんいるし、ぱくってそう…。

f:id:shindannin:20161226002752p:plain

(00:43:49) そのまま実行できるの？どれぐらい時間かかるんだろう…。

f:id:shindannin:20161226003012p:plain

(00:52:37) 提出できるし、Dockerすごい。まぁ、パクってるけど、最低限の解答ということにする。

f:id:shindannin:20161226003205p:plain

(02:36:56) 罪悪感をかんじてきたので、せめて自分で実行する。Linuxのほうがインストールが簡単そうだけど、家にLinuxがないので、Amazon Web Service(AWS) EC2で、無料のUbuntuインスタンスを借りてみる。

f:id:shindannin:20161226003920p:plain

スクリプトで使われてるパッケージ（NumPy, scipy, pandas, scikit-learn）を、全部インストールしたつもりなのに、動かず、ハマる。python 2で動くのか疑心暗鬼に。原因は、間違ってpython等を古いバージョンに戻したため、バージョンの整合性のせいで動かず、一からインストールしなおしたら、治った。 python 2で普通に全部動く。（2016年12月時点の話ですが、xgboostのインストールで、赤字の部分は古い情報も見かけるので注意。）

#xgboost
git clone --recursive https://github.com/dmlc/xgboost.git
cd xgboost; make; cd python-package; sudo python setup.py install; cd ~

でも、やっぱり別のエラーがでる…。スクリプトの文字コードにスペイン語が入ってるのにも関わらず、秀丸はSHIFT-JISと誤認識して、文字化けしてた。おーい…。絶対UTFで。
(08:30:59) 今度はMemoryエラー。単に無料インスタンスではメモリ不足のよう。有料で1番安いインスタンスを借りなおし、インストール用のbashスクリプトをちゃんと整備。

f:id:shindannin:20161226054019p:plain

(10:37:38) 動くようになる。ただし、単に自分でスクリプトを実行しただけでなので、スコアは同じ。この時点で、527位/1700ぐらい。
(11:30:22) スクリプトの中身とxgboostのパラメータなどを理解しようとする。
(12:30:57) データセット・スコアの理解につとめる
(13:27:10) フォーラムをみる。 Lagと呼ばれる特徴量を追加すると0.03点いけるらしいのでやってみる。*1

f:id:shindannin:20161226063348p:plain

(16:04:55) 簡易版のLagを入れてみると、実際0.03にかなり近い得点にいけた！てきと～なことこの上ないけど、上位10%まであと少し。ただ、終了まで3時間しかない…。

f:id:shindannin:20161226065853p:plain

ちゃんとLagを入れてみるが、点が下がる。実装ミスかもしれないけど、AWS上だとIDEはさすがに使えないので、デバッグしづらい…
5分程度しか計算してないので、短すぎかも？
(18:09:16)もう高いEC2インスタンスC4.8XLarge借りちゃえ。1時間$3ぐらいだし、もう1時間30分しかないので、問題ないでしょう。

f:id:shindannin:20161226071750p:plain

うわー、それでも結果伸びない。他人のを借りてきただけど、いろいろちゃんとセットアップしないので、結局損。xgboostしか使ってないのは、そこまで大問題ではないと思うけど、特徴量選択の自動化・ハイパーパラメータ調整・クロスバリデーションも何もやってない。眠い。天啓による調整に頼る（ダメ）。
最後、結構時間ギリギリ（打ち切れるように改良してないのもだめだし、そもそもギリギリまでやってるのがダメ）
なんとか間に合って
(19:38:59) あぁぁぁぁ、あせって間違ってデータではなく、pythonスクリプトを提出してることに気づく。つい、TopCoderの癖が…。バカすぎる…。

f:id:shindannin:20161226071207p:plain

マッチ終了
(19:42:19) Post Deadlineと表示される。提出遅れには厳粛に対応、しかし、遅れた結果はしっかり見せる、優しいのか鬼なのか分からないけど、ちゃんとしてる仕様。

f:id:shindannin:20161226071050p:plain

最終結果は、215位/1784(上位13%)でした。TopCoderのように、レート下がるってことはなさげなので、下位に沈んだら放棄する人も多いのかも。
徹夜したので、次の日は即寝落ち。

2日後、高額なインスタンスにつなげっぱなしだったのに気づく！
結果

f:id:shindannin:20161226072340p:plain

…わしはバカすぎじゃ。

Kaggle体験記まとめ

普段からLinuxを使っている人や、AWS EC2やS3を使っている人であれば、もっとすんなり行くと思います。
今回は全部AWS EC2上のUbuntu上で行いましたが、自分のPCにも開発環境を用意したほうがいいと思います。IDEが使えないのが痛い…。
Kaggleの流れを知りたいのであれば、最初の1回は今回のように他の人のスクリプトを足がかりにスタートするのは悪くないと思います。
ただ、成功例をたどるだけでは、勉強にはならなそう（短時間のわりに良いスコアは得られるかもしれませんが）。試行錯誤したり、アルゴリズムを導入・改良したり、自動化など環境をより便利にしたりってところは、自分でやったほうが、長期的にみると、スコア的にも勉強の観点からも得だと思います。
Forumでの解法の事後公開やディスカッションもとても盛んなので、読みましょう。そのあとの復習が大事。
日本人のKaggle参加者の参戦記もたくさん落ちているので、ぜひ読みましょう。

おわりに

来年こそはKaggleもがんばりたい…といいたいところですが、本職が大変になりそうなので、ぜひ、これをみた皆さんは、わしの分まで、Kaggleをやるのじゃぞ！

*1:（同じお客様IDの過去5年間のデータを探し、それも特徴量に加えるという方法です。過去の記事　ランダムフォレストのつかいかた - じじいのプログラミング -> 同種の説明変数を追加する。 -> （1）同種のデータとのかかわりを表す変数を追加するぽいやつ）