こんにちは、@yshr10icです。
翔泳社ブックアンバサダーに当選し、「Pythonで動かして学ぶ!Kaggleデータ分析入門」を読ませていただきました。本ブログはその読書メモとなります。
翔泳社ブックアンバサダーとは?
翔泳社の本を読んで感想や口コミを、SNSなどを通じて発信するアンバサダーのことで、今回100名の募集がかかり見事当選いたしました!
詳しくは翔泳社ブックアンバサダーのサイトをご覧ください。
まさかの当選した!https://t.co/cUoLTCmsPX
— yshr10ic (@yshr_10ic) November 25, 2020
翔泳社ブックアンバサダーの本届いた!
一緒に来年のカレンダーも入っててありがたい〜 pic.twitter.com/N4XNOaYCdK— yshr10ic (@yshr_10ic) November 29, 2020
読み終わった
初心者に優しい内容であったhttps://t.co/2pWb3l4uNW— yshr10ic (@yshr_10ic) December 12, 2020
本書のポイント
「Pythonで動かして学ぶ!Kaggleデータ分析入門」はどんな本なのか、ポイントをご紹介します!
- Kaggleに挑戦するフローや、Kaggleの初心者向けコンペの取り組み方を紹介
- Kaggleの2つのチュートリアルコンペをもとに、分析の準備から結果の考察、そして精度を上げるプロセスを学べる
「Kaggleに興味あるけどどうはじめたら良いか分からない」「データ分析ってどうやるの?」という人におすすめの一冊です。
本の章立て
本の章立ては次の通りです。
- PROLOGUE:Kaggleで実践的なスキルを体験しよう!
- CHAPTER1:Kaggleとは
- CHAPTER2:データ分析の手順、データ分析環境の構築
- CHAPTER3:Kaggleコンペにチャレンジ①:Titanicコンペ
- CHAPTER4:Kaggleコンペにチャレンジ②:House Pricesコンペ
- CHAPTER5:さらなるデータサイエンス向上のためのヒント
- APPENDIX:Kaggle Days Tokyo 2019レポート
各章の概要
PROLOGUE:Kaggleで実践的なスキルを体験しよう!
プロローグでは、Kaggleに挑戦する意義について筆者の体験をもとに紹介されています。
学生やデータサイエンティストを目指している社会人にとって、データ分析に関する実践的なスキルを手に入れることができるプラットフォームとしてKaggleが紹介されています。
本書では紹介されていませんが、現在はKaggle以外にも多くのデータ分析コンペプラットフォームがあります。英語が苦手という方はそちらに挑戦してみるのもいいかもしれませんね。
CHAPTER1:Kaggleとは
Kaggleとは何なのか、Kaggleにおけるメダル・称号とは何なのか、Kaggleのコンペに参加する流れなどについて説明されています。
CHAPTER2:データ分析の手順、データ分析環境の構築
一般的なデータ分析手順および、データ分析環境の構築方法について説明されています。
一般的なデータ分析手順に関しては、ここでは概要のみの説明に留まっており、詳細なやり方についてはCHAPTER3以降で説明されています。
データ分析環境については、AnacondaをWindowsで利用する方法、pyenvをmacOSで利用する方法、Kaggleの環境を利用する方法の3つが紹介されています。
CHAPTER3:Kaggleコンペにチャレンジ①:Titanicコンペ
Kaggleのチュートリアルコンペとして有名なTitanicのデータを用いて、Kaggleで結果をsubmitするまでの手順を学んでいきます。
Titanicコンペでは、乗客ごとの年齢や乗船チケットクラスなどのデータから、乗客が生存したか死亡したかを予測します。
ここでは、以下の手順で学んで行きます。
- データを取得する
- データ分析環境を準備する
- データの概要を把握する
- データを可視化する
- 前処理・特徴量の生成を行う
- モデリングを行う
- Kaggleに結果をsubmitする
CHAPTER4:Kaggleコンペにチャレンジ②:House Pricesコンペ
House Pricesコンペを利用して、CHAPTER3で学んでいない分析手法や、ハイパーパラメータチューニング、アンサンブルなどについて学びます。
House Pricesコンペでは、米国アイオワ州のエイムズ市の住宅価格を住宅ごとの築年数や設備、広さ、エリアなどから予測します。
ここでは、以下の手順で学んでいきます。
- データを取得する
- ベースライン(ベンチマーク)を作成する
- 目的変数を前処理する
- 説明変数を前処理する
- 外れ値を除去する
- 特徴量を生成する
- ハイパーパラメータを最適化する
- 様々な機械学習手法を用いてアンサンブルする
なお、2021/01/10までであればタイミング良くSIGNATEで初心者向けのHouse Pricesコンペが開催されています。本コンペはKaggleのHouse Pricesコンペと同様に米国アイオワ州のエイムズ市のデータを使用するのですが、欠損値などのデータがなくKaggleのデータよりも扱いやすくなっています。そのため、データ分析コンペ初心者の方には参加しやすいコンペとなっています。
なお、私も本書を読み進めながらSIGNATEのコンペに参加してみました。本書と同じようにやってもうまく行かないこともあったのですが(Kaggleのデータだとスコアが改善されるが、SIGNATEのデータだと改善されない)、考え方を参考にしたところ良い結果を出すことができました。Beginner限定コンペなので、強強な方はいないのですが暫定2位の結果まで上げることができたのは非常に嬉しかったです!(なお、2020/12/15時点では4位まで落ちてしまっています。)
SIGNATEのBeginner限定コンペで閾値超えたので、Intermediateになった! pic.twitter.com/LosavehdT9
— yshr10ic (@yshr_10ic) December 6, 2020
t.co参考サイトhttps://t.co/RlnIwLBihi— yshr10ic (@yshr_10ic) December 6, 2020
#SIGNATE Beginner限定住宅価格予測コンペ
目標だった25,000台に乗せることができました!
本当だったら一位を目指したいところだけど、Beginnerコンペだし、他にも面白そうなコンペ出てきているので、本コンペはこれで終了にします! pic.twitter.com/FGFyTALxMm— yshr10ic (@yshr_10ic) December 11, 2020
CHAPTER5:さらなるデータサイエンス向上のためのヒント
Kaggle Masterの方へのインタビューや、KaggleのNotebookで参考になるものなどが紹介されています。チュートリアルが終わったあとに何をすべきかが書かれている章となります。
APPENDIX:KaggleDays Tokyo 2019レポート
2019年12月に国内初開催されたKaggleDaysの参加レポートとなります。KaggleDaysとは何なのか、またKaggleDaysで発表された方の実際のプレゼンテーション内容が紹介されています。
まとめ
いかがだったでしょうか?
分析の準備から結果の考察、そして精度を上げるプロセスを学ぶことができます。「Kaggleに興味あるけどどうはじめたら良いか分からない」「データ分析ってどうやるの?」という方はぜひ本書を片手に何かしらのコンペに挑戦してみてください!
その他おすすめの本
本書を読んだあとに読むべき本をまとめてみました。
(2024/11/21 01:01:11時点 Amazon調べ-詳細)
(2024/11/21 01:01:12時点 Amazon調べ-詳細)