
Techブログ
Techブログ
〜本物のデータサイエンティストになるために必要なマインドセット・知識・経験とは?〜
この連載ではデータサイエンティストの視点で、筆者が以前勤めていた外資系コンサルティングファームの経験を踏まえ、価値のあるデータサイエンティストについて記載させていただきます。
目次
前回の記事では、問題だらけのデータサイエンティストの実態を紹介しました。では、実際に「本物のデータサイエンティスト」になるには、どのようなマインドセットや知識、経験が必要なのでしょうか?
今回は、それらの具体的なポイントを実際のエピソードや事例を交えて解説していきます。
※前回の記事はこちら:https://www.arsaga.jp/news/techblog-true-data-scientist/
データサイエンティストとしての成功を左右する最も重要なマインドセットは、分析結果が「ビジネスにどのように役立つか」を常に考え続ける姿勢です。分析はあくまで手段であり、最終的なゴールは企業の意思決定や課題解決を支援することにあります。
例えば、ある飲料メーカーで分析を担当したデータサイエンティストは、売上予測を行っただけでなく、販売促進や新商品投入のタイミングまで具体的に提案したことでお客様から効果を認められ、分析手法をグループ内他社に導入することになりました。
このような成果は、単に精度の高いモデルを作るだけでなく、その結果をどのようにビジネスに活用するかまで考え抜いたことによって生まれたのです。つまり、モデルの精度だけに満足せず、「その先」を見据える姿勢が、データサイエンティストには求められます。
たとえ顧客データの分析を行い、購入予測精度95%の予測モデルを作成できたとしても、具体的なアクションプランが提示されなければビジネス側はどう対応すればいいか分からず、予測モデルは価値を活かせません。
ただ「精度が高いモデルを作れた!」で終わるのではなく、そのモデルの活用が実際の事業にどんなインパクトをもたらすのか、誰にどういう意思決定を促すのかを考え抜くことが求められます。
次に重要なのは、数理モデルやアルゴリズムについての深い理解です。
表面的に「このアルゴリズムは分類が得意」と理解するだけでは不十分です。本物のデータサイエンティストは、「そのアルゴリズムが有効な前提条件」まで理解しています。
例えば、筆者がかつて担当した航空会社では、顧客の荷物預かりにかかる時間削減のため、社員の行動を変化させA/Bテスト(※1)を実施、その結果をt検定(※2)で効果検証を行いました。しかし、検定の前提となる条件の1つである正規性(※3)が満たされていなかったことに気づき、慌てて使用するアルゴリズムを変更しました。結果、A/Bテストの効果検証の誤りをお客様へ報告することを避けられました。
この失敗例からもわかるように、アルゴリズムの前提条件を理解することは、精度向上だけでなくビジネスリスクの回避にも不可欠です。
モデルが複雑になるにつれてこの「アルゴリズムの有効な前提条件」も複雑になっていきます。時系列分析や因果推論は前提条件が特に複雑になりやすいので、注意深く検討しながら分析するように心がけています (もちろん、その他の分析でも前提を見落としていないか確認しながら進めています)。
※汚いデータは例えば、大量の欠損値、明らかな誤入力や異常値、フォーマットが統一されていないデータなど。
データサイエンティストとして一人前になるためには、実際の業務で遭遇する「汚いデータ」「不完全なデータ」を捌く経験が不可欠です。理論や教科書では綺麗なデータを扱うことが多いですが、現場では欠損値が多かったり、ノイズが混ざっていたりと、想定外の問題ばかりです。
例えば、ある食品メーカーでは売上データが毎月異なるフォーマットで保存されており、分析に適したデータにするために処理の工夫が必要でした。そのような作業を効率よく行えるようになることもデータサイエンスには必要です。
また筆者が出会った中で、特に大学等で理論を学んできた若手データサイエンティストは、「汚いデータ」を分析する経験が乏しく、少しの前処理の工夫で分析結果に大きな影響を与えられることに気がついていないことが多かった印象です。さらに、様々な業種・業界のデータを分析する経験も重要です。
金融、製造業、EC・小売など、業界が違えば分析の課題も異なります。多種多様なデータ分析の経験を通じて、自分自身の引き出しを増やすことが、予想外の事態に遭遇しても適切な対応ができる「本物のデータサイエンティスト」への道です。
本物のデータサイエンティストに求められるのは、派手なスキルや最先端の技術ではなく、地に足のついた実践力です。
ビジネスにインパクトを与える視点、アルゴリズムの前提条件を理解したうえでの冷静な判断、そして「汚いデータ」と向き合って試行錯誤を繰り返す経験。これらの積み重ねこそが、真の価値を生み出します。どんなに精度の高いモデルを作っても、それが現場の意思決定につながらなければ意味がありません。
だからこそ、私たちデータサイエンティストは常に「この分析は、誰の、どんな行動を変えるのか?」という問いを忘れてはならないのです。
【次回予告】
次回第3回では、“見習い”データサイエンティストがよく陥る「表面的な理解による分析失敗」「現場と噛み合わない分析結果の悲劇」などの具体的な罠を取り上げ、その対処法を徹底解説します。「自分は大丈夫」と自信がある方ほど要注意!実際に起きたリアルな失敗事例とその解決策を詳しく紹介しますので、ぜひご期待ください!
【用語補足】
※1.A/Bテスト:ユーザーを無作為に施策Aと施策Bに分け、同一条件下で指標差を統計検定する実験。十分なサンプルと外部要因統制が重要で、得られたp値・信頼区間と効果量で施策採否を判断、UI改善や価格最適化に活用される
※2.t検定:母平均が既知値と異なるか、または二群の母平均差がゼロかを、小標本でも分散未知の正規分布を仮定して検証する手法。平均差を標準誤差で割ったt統計量をt分布に当てはめ、p値と95%信頼区間で有意差を判定
※3.正規性:データが正規分布に従う性質を指し、多くの統計手法の前提。母集団が正規性を満たしているのであれば平均の推定や t 検定、回帰残差解析が妥当となる
<執筆・監修>
アルサーガパートナーズ株式会社 技術ブログ制作チーム
RK
データサイエンティスト。
前職含めデータサイエンス歴14年。
電力、製造小売、航空、通信、医療、製薬、食品製造、飲料メーカーなど、幅広い業界で分析業務・モデル作成を担当。