2023年データサイエンティストになるためたった3つのスキルセット
データサイエンティストという職種が注目を集めています。異業種の人から見ると、『給料が高い』・『ニーズが多い』印象がある事もあり、リスキリングを通じてデータサイエンティストになりたいと思われるのも無理はないお話かもしれません。
※このかもしれません、癖なかなか抜けないのはご容赦下さい
今回は長年分析業界にいる経験をもとに、データサイエンティストに求められるスキル・技術を説明します。
Google検索で、『データサイエンティスト スキル』で検索をしても、リスキリング・トレーニング関連の企業様による情報が山のようにでてきていますが、市場ニーズよりも、SEO観点でのキーワード群になってしまっているため、実際に分析業界・企業で求められているスキルセットと乖離してしまうと考えています。
『データサイエンティストになりたい』というご希望を持った以上、データサイエンティストのやり方で調べてみるのが基本です。つまり、データサイエンティストの『仕事に求められる内容』を知ることが第一歩になります。つまり、『データサイエンティストとしての仕事を見つけること』が目標であることを考えると、に焦点をあてて考えれば良い訳です。
日本では有名なDeNAの濱田ディスクリプションのように、そんなスキルセットを全部持ってたら、DeNAに行かずに起業するっしょ?というレベルのディスクリプションが多い事、日本のデータサイエンス業界の労働市場がアメリカの3~5年遅れで実際の波が来る事を加味し、アメリカの採用募集情報を対象に、実際の求人情報をもとに情報を分析・まとめつつ、自身が身を置いている業界で『実際に必要』となる技術セットの要素を付加しています。
今回のポストを読了いただくことで、以下を把握いただけます。
- データ サイエンティストに必要なツール トップ 10
- データ サイエンティストに必要な上位 10 のスキル
- 最低限必要な学歴
- 上記の前年実績との比較
今までの経験の思いがけない側面を履歴書に書いておく事でデータサイエンティストとして採用されるケースがあるかもしれません。
コミュニケーションなどのソフト スキルは、分析に基づいて要約するのが難しい場合があるため、データ サイエンティストに求められる技術スキルだけを取り上げることにご留意ください。 予測分析に基づいた結果を実行に移す部門は、データサイエンス部門ではなく、営業部、マーケティング部門、コールセンター部門等の現場になるため、ビジネス現場を動かす、コミュニケーション能力が重要不可欠である事は言うまでもありません。
データ サイエンティストに必要なツール群トップ10
大量のデータを処理および分析するために、データ サイエンティストは分析用のツールを利用します。 一部の企業は、過去のアセットを活用し続ける上で、利用可能なツールについて厳格です。 企業によっては、使えるツール、使えないツールがあるなどの制約があります。しかし、いずれかのツールを使いこなせることは、データ サイエンティストになる以上、不可欠な条件になることは間違いありません。
大半の求人情報の中で、実務にあたっての特定のツールが記載されています。 以下は、雇用主がデータ サイエンティストに必要とする代表的な10 個のツールです。
言語
- Python
- SQL
- Java
- Spark
- Scala
- R
- Excel
- PowerBI
- Tableau
- SAS/SPSS Modeler/DataRobot/Dataiku
プログラミングスキルは、データサイエンティストにとって重要な資格です。 Python は、データ サイエンティストにとって最も人気のあるプログラミング言語であることは疑いの余地がありません。 求人情報の 大半にPythonが登場します 。 ジョブディスクリプションには、TensorFlow、PyTorch などの Python 関連の用語も出ていましたが、今回は割愛しています。
なぜ?
Python は非常に強力でありながら比較的単純な言語だからです。 使いやすいデータ サイエンス ライブラリを多数提供するだけでなく、他の一般的な機能も備えています。 そのためデータ サイエンティストが作成した成果物を、そのまま、Python を使用してタスクを自動化したり、クラウド サービスに接続したり、Web 開発に参加したりすることもできます。
したがって、データ サイエンティストになりたい場合は、Python が出発点として適しています。
SQL も重要です。 結局、API全盛期とはいいながらも、データベースを使用して情報を保存していない企業は存在しません。したがって、この古典的なデータベース クエリ言語を理解しておくことは全ての基本になります。大手企業になれば、データ抽出は専門部隊が代替してくれる事もありますし、ビジネス部門がSQLを使いこなしている企業も存在しますが、大量に発生してしまうテーブル群から分析に必要なデータを発見し、取得し、加工する際には、SQLの利用は必要不可欠になります。
Javaは、検索エンジン関連の技術が多くjavaを利用すること、ChatGPTに侵食されつつあるとは言え、検索の技術は、企業、個人でも最も重要な技術であることからも、データサイエンティストとして技術取得をしておく事は大きなプラスになります。SQL/Pythonより先に習うべきという事はありませんが、どちらかというと、SQL/Pythonをマスターした後、SOLR/Lucine/Elastic Search等の検索領域の技術を学習しつつ、Javaを身に付けるという流れがスムーズです。また、検索エンジン領域のエンジニア数は市場のニーズに比して圧倒的に不足しているため、ねらい目の領域になります。
Spark/PySpark などのビッグデータ関連のツールも需要があります。 企業が大量のデータを持っている場合、それらは不可欠になりますが、いざ、お客様に言われて分析現場に入ってみたら、Sparkの管理ノードをスケールアップしてPython(+Pandas)を使っていたという絶望事例もありますので、使いこなせると給与が上がる事もあるかも、、、程度だとお考え下さい。
R は、一時期は、データサイエンティストの基本ツールとしての地位を確保していました。MicrosoftによるRevolutionR買収と、SPSS創業者であるノーマンナイによる内紛等のごたごたが発生している間(RevolutionRをSPSSという名称にしようとしていた説があったり、Rのパフォーマンスをがりがりにチューニングして、メモリ量上限に関係なくRを利用できるよう技術的なハックをしていたメンバーの首を切ったりという内紛があった訳です。)に、Pythonに人気を奪われ、最近では求人情報では人気に陰りが出てきている事が分かります。とは言いつつ、R にはアカデミア(文教)での利用実績が多く、最新の統計モデルが Python よりも前に R で実装されることが多いため、『最新の統計モデルを利用したい』等のニーズがある場合は、Rも使えるとプラスにはなります。また『分析結果のアウトプットが美しい』点も強いメリットになります。
Excel/Power BI/Tableau等の可視化領域はエンタープライズ領域において、1番目、2番目レベルで常時、根強いニーズがあります。人によってはデータをTableauで様々なアウトプットに描ける事が『楽しい』となるエンジニアの方もいらっしゃいます。分析業界ではレベルが低い業務と思われがちですが、実は可視化領域に、経理、財務部門の知識を掛け合わせる事で、人月単価が2,000,000~1,000万の高額データサイエンティストに変身できる点も注目すべき点かもしれません。
『百聞は一見に如かず』ということわざの通り、データの視覚化は、データ サイエンティストの仕事の重要な部分です。 Python や R は優れた視覚化パッケージを提供していますが、そのままの出力をビジネス部門に見せるには不十分な事が多いです。
Excelと、PowerPointに関しての補足と市場価値
Python、Rは得意!というのに、ExcelはMicrosoft製品だから嫌いです!というデータサイエンティストは時たまお見受けしますが、分析結果を実行してもらってはじめて価値が成立するデータサイエンティストであればこそ、アウトプットにはこだわるべきだと考えています。
実際、アクセンチュアをはじめとするコンサルティング会社の持ってくる分析の大半は、このExcelと、PowerPointですが、内容は全く空っぽでも、『お客様が伝えたい事を綺麗に構造化した』Excelと、PowerPoint程人の心を揺さぶる物はなく、それが故に、あの高いコンサルティング料金が成り立っている事を加味して考えると、データサイエンティストだからExcel、PowerPointは下手は、市場価値を下げてしまうので、タイミングを見て学習する事をお勧めします。
※とはいえ、PowerPointはSlideMasterを確認すると、機能として正しく使っている事はかなりレアで、職人のようにテキストや画像の配置を『配置ぞろえ』して印刷物のような状態で仕上げている作品が多いのには、常々閉口しています。
SAS/SPSS Modeler/DataRobot/Dataikuもユーザー企業によって過去資産、現在資産を活用する目的でニーズはあります。GUIでなんとかしようとする製品は、今後も雨後の筍のように登場しますが、いずれにせよどのツールもこれらの上でPythonを実行できるため、初学者がどれかを無理に習う必要はなく、SQL/Pythonをマスターした後、業務で必要になった段階でマニュアルを読みながら実行する流れで大まかな問題は発生しないと推測いたします。
データ サイエンティストに必要な分析基盤…トップ…
クラウドの人気が高まっています。 全クラウドベンダーがエンタープライズの保持するデータを全てクラウドに配置してもらう事を目的に、分析用途に積極的であることもあり、分析業務と言えば、クラウドでの実行が当たり前のようになっています。データ サイエンティストは、データ ストレージやコンピューティング能力など、クラウドのさまざまな機能を利用できます。クラウド プロバイダーの中で、最も人気があるのは Amazon Web Services (AWS) ですが、GA4のデータをBigQueryに連携できるようになったGCPも根強い人気があります。またMicrosoft Azureもエンタープライズ領域で強い人気があるため、データサイエンティストを目指す方であれば、いずれかのツールを自由に使えるようになっておく事をお勧めします。
とは言え、入社する企業によっては、『AWSと言う名前のついた、古臭い作りの何か』みたいなクラウドインプリになっているケースも多々ありますので、入社後絶望しないようにするには、cloudの何が使えるかという点だけは入社前に確認しないと、cloud上でExcelもPowerPointも使えない等の制約に、分析作業効率を大きく足を引っ張られる事がある点だけはご注意ください。
データ サイエンティストに必要なトップ スキル
ツールは、データ サイエンティストが成功するには技術的なスキルを実行するための物でしたので、今度は 雇用主が必要とする上位 10 のスキルを見てみたいと思います。
- 機械学習
- 統計
- リサーチ
- 視覚化
- 予測
- レコメンデーション
- 最適化
- 自然言語処理
- ディープラーニング
- ダッシュボード
機械学習は多くの人にとってのイメージでは、データ サイエンティストが行う唯一の業務になっているかもしれません。求人情報大半は、必要技術の説明で機械学習を必須としていて、 データ サイエンティストは、教師あり学習、教師なし学習、強化学習などのアルゴリズムと、ロジスティック回帰、決定木、ニューラル ネットワークなどのモデルを知る必要があります。
統計の知識は、データ サイエンティストの強固な基盤となります。 機械学習の実装方法だけ知っていて、なんちゃってデータサイエンティストを名乗っている方は多いのですが、 データサイエンティストになるには、数学、確率論、データ収集、実験計画、およびその他の統計的概念を学んだ上で、何故機械学習の結果が導き出されているかという根拠を理解できている必要があります。
調査も、データ サイエンティストにとって不可欠なスキルと見なされています。ファーストパーティーで保持しているデータだけで対象の顧客を理解できない場合、アンケートを中心とする調査業務は、データエンリッチの観点からも非常に重要です。半面、アンケート設計が下手過ぎるとか、アンケートを依頼する対象を偏らせてしまい、企業が『本当に必要としていた』顧客理解、未顧客理解に失敗してしまうケースもあります。
データの視覚化(ダッシュボード作成)がデータサイエンティスト業務かと言われると、少し疑問がある部分はありますが、エンタープライズ市場では恒常的なニーズがある分野ではあります。 データ サイエンティストは、分析結果をわかりやすいグラフまたはダッシュボードとして提示する必要があります。
予測、レコメンデーション、最適化、自然言語処理 (NLP)、深層学習など、機械学習または統計スキルのサブセットも求められています。 各役割には異なる技術が必要なため、これはタスクによって異なります。
たとえば、クレジット カード会社は、顧客の休眠化、解約、クロスセル・アップセル対象を絞るためのを予測するデータ サイエンティストを必要としています。 あるメディア企業は、データ サイエンティストにテキストと動画、画像を分析してもらいたいと考えています。予測テーマはそれぞれ、皆さんの興味のある領域を獲得いただくとスムーズです。
データサイエンティストになるための学歴縛りは?
最後に、データ サイエンティストの最低限の教育資格を見てみましょう。
求人情報の大半が最低教育レベルとして学士号を求めています。
修士号・博士号を求める会社もあります。
MBAは日本国内ではあまり関係ないので、一旦忘れても大丈夫かもしれません。
学位要件が「指定されていない」企業もありますので、学歴はあまり強く意識しなくても良いかもしれません。
つまり、日本国内で、データサイエンティストとしての一歩を踏み出すには、関連分野の学士号で十分かもしれません。 修士号または博士号を持つと、より競争力が高くなる程度とご理解いただければ幸いです。
会社に勤めながらデータサイエンティストを目指すには
個人的にお勧めしている方法としては、経理部さんであれば、経理財務データ、営業部さんであれば自分の顧客データ、製造部さんであれば製造関連データ等、自分の入手可能なデータを収集してみてください
業務部門であれば、皆さんが普段から愚痴を言っている内容が、皆さんの課題である可能性があるので、その愚痴の中の1つを課題と見立てて、集めたデータを使って解決できるかを考えてみてください
集めたデータをどう処理すると、(予測すれば良いのか、分類すれば良いのか)幸せになれるかを考えてみましょう
その後、自社での利用が許されているツール(PythonでもRでもSPSSでも何でも問題ないです)で予測・分類モデルを作ってみる
出てきた結果を信じて施策反映してみる
施策反映で出来た結果がデータとして蓄積されるので、そのデータを再度分析する
このサイクルを回し続ける事で、データサイエンティストを目指しつつ、皆さんの今の部門内での業務効率改善、パフォーマンスアップが実現できるはずです!
まとめ
この投稿では、データ サイエンティストの資格やスキルを検討しました。 基本的に、Excel、SQL、Pythonの3つを集中して学習する事が一番の近道とご理解いただけたと思います。また、データサイエンティストになる方法について、より良いアイデアが得られたことを願っています。
データサイエンスは、当面の間、需要があり続けるでしょう。 これらのスキルをすでに持っているかどうかに関係なく、学習を始めるのに遅すぎることはありません。
ご不明な点がございましたら、コメントを残してください。