Pythonで動かして学ぶ!Kaggleデータ分析入門 #翔泳社ブックアンバサダー

読書メモ
スポンサーリンク

こんにちは、@yshr10icです。

翔泳社ブックアンバサダーに当選し、「Pythonで動かして学ぶ!Kaggleデータ分析入門」を読ませていただきました。本ブログはその読書メモとなります。

スポンサーリンク

翔泳社ブックアンバサダーとは?

翔泳社の本を読んで感想や口コミを、SNSなどを通じて発信するアンバサダーのことで、今回100名の募集がかかり見事当選いたしました!

詳しくは翔泳社ブックアンバサダーのサイトをご覧ください。

翔泳社ブックアンバサダー大募集|翔泳社の本
書籍を読んであなたの口コミをSNSで発信しよう。翔泳社ブックアンバサダーに選ばれると、無料で書籍をプレゼント!

本書のポイント

Pythonで動かして学ぶ!Kaggleデータ分析入門」はどんな本なのか、ポイントをご紹介します!

  • Kaggleに挑戦するフローや、Kaggleの初心者向けコンペの取り組み方を紹介
  • Kaggleの2つのチュートリアルコンペをもとに、分析の準備から結果の考察、そして精度を上げるプロセスを学べる

Kaggleに興味あるけどどうはじめたら良いか分からない」「データ分析ってどうやるの?」という人におすすめの一冊です。

本の章立て

本の章立ては次の通りです。

  • PROLOGUE:Kaggleで実践的なスキルを体験しよう!
  • CHAPTER1:Kaggleとは
  • CHAPTER2:データ分析の手順、データ分析環境の構築
  • CHAPTER3:Kaggleコンペにチャレンジ①:Titanicコンペ
  • CHAPTER4:Kaggleコンペにチャレンジ②:House Pricesコンペ
  • CHAPTER5:さらなるデータサイエンス向上のためのヒント
  • APPENDIX:Kaggle Days Tokyo 2019レポート

各章の概要

PROLOGUE:Kaggleで実践的なスキルを体験しよう!

プロローグでは、Kaggleに挑戦する意義について筆者の体験をもとに紹介されています。

学生やデータサイエンティストを目指している社会人にとって、データ分析に関する実践的なスキルを手に入れることができるプラットフォームとしてKaggleが紹介されています。

本書では紹介されていませんが、現在はKaggle以外にも多くのデータ分析コンペプラットフォームがあります。英語が苦手という方はそちらに挑戦してみるのもいいかもしれませんね。

TOP | SIGNATE - Data Science Competition
This is the list of SIGNATE competition. Data science competitions to solve the business problems. In addition to the competitions, a lot of resourceful content...
ProbSpace | データ分析好きが集まる交流プラットフォーム
ProbSpaceはデータ分析をしたい人が集まり「金融」や「購買」と言った多彩なテーマのコンペティションで競い合うためのプラットフォームです。機械学習、データサイエンスを得意とした人材が集まり、企業様とのマッチングを図ることも可能です。
データサイエンスコンペティションを、日本の当たり前に。
Nishikaは、データサイエンスコンペティション・Q&A・求人サービスの提供により、データサイエンティストと、データ活用やAI・機械学習導入により課題解決をしたい企業をつなぎます。

CHAPTER1:Kaggleとは

Kaggleとは何なのか、Kaggleにおけるメダル・称号とは何なのか、Kaggleのコンペに参加する流れなどについて説明されています。

CHAPTER2:データ分析の手順、データ分析環境の構築

一般的なデータ分析手順および、データ分析環境の構築方法について説明されています。

一般的なデータ分析手順に関しては、ここでは概要のみの説明に留まっており、詳細なやり方についてはCHAPTER3以降で説明されています。

データ分析環境については、AnacondaをWindowsで利用する方法、pyenvをmacOSで利用する方法、Kaggleの環境を利用する方法の3つが紹介されています。

CHAPTER3:Kaggleコンペにチャレンジ①:Titanicコンペ

Kaggleのチュートリアルコンペとして有名なTitanicのデータを用いて、Kaggleで結果をsubmitするまでの手順を学んでいきます。

Titanicコンペでは、乗客ごとの年齢や乗船チケットクラスなどのデータから、乗客が生存したか死亡したかを予測します。

Titanic - Machine Learning from Disaster | Kaggle
Start here! Predict survival on the Titanic and get familiar with ML basics

ここでは、以下の手順で学んで行きます。

  1. データを取得する
  2. データ分析環境を準備する
  3. データの概要を把握する
  4. データを可視化する
  5. 前処理・特徴量の生成を行う
  6. モデリングを行う
  7. Kaggleに結果をsubmitする

CHAPTER4:Kaggleコンペにチャレンジ②:House Pricesコンペ

House Pricesコンペを利用して、CHAPTER3で学んでいない分析手法や、ハイパーパラメータチューニング、アンサンブルなどについて学びます。

House Pricesコンペでは、米国アイオワ州のエイムズ市の住宅価格を住宅ごとの築年数や設備、広さ、エリアなどから予測します。

House Prices - Advanced Regression Techniques | Kaggle
Predict sales prices and practice feature engineering, RFs, and gradient boosting

ここでは、以下の手順で学んでいきます。

  1. データを取得する
  2. ベースライン(ベンチマーク)を作成する
  3. 目的変数を前処理する
  4. 説明変数を前処理する
  5. 外れ値を除去する
  6. 特徴量を生成する
  7. ハイパーパラメータを最適化する
  8. 様々な機械学習手法を用いてアンサンブルする

なお、2021/01/10までであればタイミング良くSIGNATEで初心者向けのHouse Pricesコンペが開催されています。本コンペはKaggleのHouse Pricesコンペと同様に米国アイオワ州のエイムズ市のデータを使用するのですが、欠損値などのデータがなくKaggleのデータよりも扱いやすくなっています。そのため、データ分析コンペ初心者の方には参加しやすいコンペとなっています。

【第5回_Beginner限定コンペ】アメリカの都市エイムズの住宅価格予測 | SIGNATE - Data Science Competition

なお、私も本書を読み進めながらSIGNATEのコンペに参加してみました。本書と同じようにやってもうまく行かないこともあったのですが(Kaggleのデータだとスコアが改善されるが、SIGNATEのデータだと改善されない)、考え方を参考にしたところ良い結果を出すことができました。Beginner限定コンペなので、強強な方はいないのですが暫定2位の結果まで上げることができたのは非常に嬉しかったです!(なお、2020/12/15時点では4位まで落ちてしまっています。)

CHAPTER5:さらなるデータサイエンス向上のためのヒント

Kaggle Masterの方へのインタビューや、KaggleのNotebookで参考になるものなどが紹介されています。チュートリアルが終わったあとに何をすべきかが書かれている章となります。

APPENDIX:KaggleDays Tokyo 2019レポート

2019年12月に国内初開催されたKaggleDaysの参加レポートとなります。KaggleDaysとは何なのか、またKaggleDaysで発表された方の実際のプレゼンテーション内容が紹介されています。

まとめ

いかがだったでしょうか?

分析の準備から結果の考察、そして精度を上げるプロセスを学ぶことができます。「Kaggleに興味あるけどどうはじめたら良いか分からない」「データ分析ってどうやるの?」という方はぜひ本書を片手に何かしらのコンペに挑戦してみてください!

その他おすすめの本

本書を読んだあとに読むべき本をまとめてみました。

コメント

タイトルとURLをコピーしました