社会人になってからプログラミングを始め、Pythonと勉強してKaggle Expertになりました。
今回はそれまでに読んだ本を5冊紹介します。
なんとかメダルを取れたのは、平日も土日もPCに向かい続けたからだと思っています。
初めに何をしたらいいかわからない状況を乗り越えるため
だけです。
基礎知識さえ抑えたら、たぶんKaggle内の情報だけで銅メダルはとれます。
お金が惜しいならネット記事で勉強してKaggleを始めれば十分です。

Pythonではじめる機械学習
勉強を始めたばかりの初心者ならこの本がいいと思います。
ただ、この本だけを読んでKaggleに挑戦すると浦島太郎状態になります。
紹介している技術が古く、最新のモデルには全く歯が立たないためです。
線形回帰やランダムフォレストなどを学べるので、第一歩としては十分です。
Kaggleには”Tabuler Playground Series”というメダル付与がない単純なコンペがあります。
そこでこの本の内容を試し、機械学習に慣れてみるといいかもしれません。
Kaggleで勝つデータ分析の技術
個人的には、今すぐKaggleに登録してコンペに参加するのが最短の勉強法だと思います。
そしてこの本を持っていれば、最低限必要な情報は抑えられるはずです。
ただこの本を読んでも、勝つというか、メダルを取ることはできません。
なぜなら、コンペ参加者はみんなこの本の内容を知った上で工夫しているからです。
もっと言えば、この本に書いてあることを実践したNotebookが公開されたりします。
むしろ本書の内容を知っていることがベースラインであるとも言えますね。
ゼロから作るDeep Learning
最近のKaggleコンペでの上位モデルは、ほとんどがディープラーニング(ニューラルネット)を使っています。
本ブログでは、初心者向けのモデルとしてXGBoostやLightGBMを紹介しています。
しかしこれだけでメダルがとれるコンペは、最近はほとんどありません。
そして、画像や文章、音を扱うモデルにおいてはディープラーニングの知識が必要です。
さらに、Transformerというモデルがほとんどの機械学習タスクで猛威を振るっています。
とどめに、テーブルデータにおいてもTabNetが活躍する始末です。
なので、この本でディープラーニングの基礎知識(理論)を抑えましょう。
ディープラーニングのライブラリとしては、kerasとpytorchが主流です。
pytorch:自由度が高くtimmが優秀
というメリットがあるので、どちらも使い方を知っておきたいところです。
Kaggleの公開コードではpytorchが多めなので、pytorchからが始めやすいと思います。
Python実践データ分析100本ノック
機械学習では、モデル作成だけじゃなくデータ処理(加工)の技術も必要です。
本書で最低限の知識を抑えて、Kaggleで公開されているNotebookの処理を真似てみれば大丈夫です。
費用を抑えたい人は、”Kaggleで勝つデータ分析の技術”だけでも十分かもしれません。
個人的にこの本を最初に読んで前処理を勉強したので、ピックアップしました。
退屈なことはPythonにやらせよう
なぜ選んだのかと言うと、これまでに紹介した4冊ではPythonの文法についてほぼ触れられていないからです。
この本のメリットは、本業の事務作業を自動化しながらもPythonの文法を学べることです。
・アウトプットが見えること
・勉強の成果が実生活に反映されること
の2点が重要だと思います。
仕事の作業だとアウトプットが見えやすいので、勉強のモチベーションを維持しやすいですよ。
まとめ:インプット1割アウトプット9割
今回は、私が完全無知から機械学習を勉強するために使った本を紹介しました。
逆に言えばこの5冊しか読んでいないので、そんなに読まなくてもExpertにはなれます。
>>【無料説明会あり】キカガクのAI人材育成コースで勉強する

コメント