どうも、たけとけたです。
2週間前に職場の上司から「高度データ分析をやってくれないか?」と言われました。化学メーカーである弊社では経験者が不足しており経験者を増やす研修を通して業務への活用例を増やしています。僕も「面白そうだなあ」とは思っていたので、渡りに船です。せっかくなのでこの機会にkaggleをやってみることにしました。
高度データ分析
そもそも「高度データ分析」って何なんだ?データサイエンスと違うのか?と思って調べたんですが、高度データ分析はビジネス界隈でビックデータ分析・ AI活用などを大枠で指している用語のようです。コンサルが素人に分かるよう説明するときに用いるのかな?先輩に聞いた感じでは弊社の高度データ分析は機械学習による予測を想定しているようです。
kaggleとは
Kaggle (カグル)とは、世界中の機械学習・データサイエンスに携わっている人が、データ分析力や機械学習のモデリング力を競い合うコンペティションまたはそのプラットフォームです。機械学習を勉強していると参考書籍にkaggle本が紹介されていることが多いので存在は知っていました。
kaggle をやってみる
ただ、世界中のすっごい天才どもが集う強者の饗宴、みたいなイメージが強くてこれまで敬遠していたところではあります。もうね、怖いよね、Googleでアカウント作れますよなんて言われても世界中のハッカーにアカウント奪われるんじゃないかとか勘ぐってしまいますよね。そうやってうじうじしていたのですが、せっかくこれまでPythonの勉強もしていたので始めてみようとなりました。
kaggleの始め方は下記です。
- 本を買う
- Titanicコンペに参加する
- 公開ノートブックを探して眺める
- コンペに参加してみる
本を買う
初学者はまずその道の入門書を買う!は鉄則です。ということで僕は下記の本を買いました。
この本の中にはkaggleのアカウントの作り方から、チュートリアルであるTitanicのコンペを一通りやってみるところまで解説してくれています。コードも公開してくれているので安心です。
Titanicコンペに参加する
コンペ提出まで1時間ほど、その後モデルを変えたりデータの前処理を変更することをやっても5時間ぐらいでできました。
これをやることで嫁に「タイタニック号の生存者予測したでぇ(ドヤ」とイキって気のない返事をもらうことができます、たけとけたのレベルが1上がった。
公開ノートブックを探して眺める
自分はどういったコンペに参加したほうがいいのかなあ〜、とタイムラインを眺めながら気になるコンペを開いてみては概要を確認してみることを繰り返しました。 というのもkaggleのコミュニティがどうなっているのか?を知りたかったからです。チュートリアルだけだといまいちどんな感じでみんなが参加しているのかわからないんですよね。
その点、タイムラインを眺めていると各々の最近の活動履歴が見れるので楽しいです。昔のコンペであってもコードを更新していたり、解説を増やしてくれていたりしてくれていて見ているだけでも興味深いです。それをきっかけに過去のコンペの題材に触れることもできて楽しいです。金属加工時の不良品原因の解析などは仕事にも使えそうでしたし、COVID-19の感染者数予測をリアルタイムでやっているところを見れたりもして面白いです。
コンペに参加してみる
せっかくなので、開催中のコンペにも参加してます。テーブルデータのコンペだと参加しやすいかなあと思って、公開されているのノートブックを使って参加してます。今後は中身を確認しながら理解を深めていこうと思っています。
Kaggleを登録してよかったこと
実際の予測値向上の現場を知ることができた
データ分析の現場でどうやって予測値向上に挑戦しているのか、その肌感が分かったことが今回の大きな収穫でした。「機械学習はデータの前処理が大事」と言う話も聞いてはいましたが、実際の現場でのデータの意味を捉える努力や解釈の議論などを眺めることでニュアンスを理解できたかなあと思います。素人ほど新しい技術を魔法の杖のように考えてしまいがちなので実際の泥臭い部分を知ることができたのはいい発見でした。
機械学習の一通りの流れを体験できた
実は現在、下記の本をコツコツ写経していました。勉強のために。
Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎
- 作者:Andreas C. Muller,Sarah Guido
- 発売日: 2017/05/25
- メディア: 単行本(ソフトカバー)
機械学習のモデルのベースややっていること、特徴量エンジニアリングやデータ前処理について体系的に学べていたのですが、初学者からすると「これが一体どう役立つのか?」がわかりづらいんですよね。内容も僕にはちょっと重たかったです。
Kaggleで今回データを分析して予測値を提出する一連の流れを実施したことで、一つ一つの作業が何につながるのか?を体験できました。「あ、これはこのためにやっていたのか?」と勉強していたことが実務に活かせる瞬間がありアドレナリンがドバドバ出ました笑
初学者は入門本で一通りやってみるが吉
「Kaggle 初心者」で調べると入門用の記事が上がっているのですが、今回本を買って実施したおかげで数時間で一通り触れたのはよかったですね。「Pythonで始めるKaggleスタートブック」にはネットで無料公開されている記事の内容も多く含まれており、「時間かけたらネットの情報を拾いながらでもできたんじゃ?」と思わなくもないのですが、今回目標としていた「高度データ分析業務のためのKaggle参加体験」までの導入としては最短で達成できたのではないかと思います。
初学者はとにかく些細なことでつまづいてしまうのは嫌という程経験してきたので、丁寧な入門本は使うに越したことはないです。特に書籍は販売までに一定の審査・修正を受けているので間違いが少ないです。
参考)情報商材を買う前に読むといい記事
https://kensuu.com/n/ne7811c9b5bdb
終わりに
「試しにメダル取るところぐらいまではやってみようかなあ」と考えていたんですが、「Kaggleのコンペで勝つためにはそれなりの覚悟が必要」と書いてあるのでなかなかどうして次の一手が重いのはよく分かりました。みんな1日数時間(平均3時間とかの数字も見た)コミットしてて震えました、
まあ業務でもやっていくので、その助けになるよう少しずつでも触ってみようかなあと思います。また、下記の本も買って勉強していこうかな?
ではでは!