IT

データサイエンティスト不足を解決するデータサイエンスプラットフォームという技術

近年、あまり知識のない人でもデータサイエンティストっぽい分析ができる、データサイエンスプラットフォームという技術が盛り上がってきている。

この記事では、データサイエンスプラットフォームとは何か、具体的にはどんなものがあるのかについて解説する。

データサイエンティストの需要と不足

大量のデータ(ビッグデータ)から有益な洞察を導き出して、ビジネスの課題を解決できるデータサイエンティストのニーズが高まっている。

データサイエンティストは2010年代の初期に注目され始めた職業だ。ただし、この時には

  • AIの技術が未熟だった
  • データの絶対量不足
  • データ運用法の理解不足
  • 運用できる人材の不足

等があり、実用化には遠かった。そのためブームは一時沈静化した。

だが、技術の進化により、実用的にAIを活用できるようになった。さらに、人手不足、働き方改革といった流れも来ており、データサイエンティストは再び注目を集めている

しかし、データサイエンティストの不足は昔と変わらない。需要が当時よりも増えていることを考えると、データサイエンティストの不足はむしろ加速している。

データサイエンティスがなぜ不足しているのかと言うと、高度なスキルが求められるため、なろうと思っても簡単になれないからだ。

データサイエンティストに求められるスキルを挙げてみると、

  • 統計学の知識
  • 機械学習の知識
  • Pythonなどのプログラミングスキル
  • ビックデータを加工するスキル
  • SQL等を用いたデータベース操作スキル
  • AIをビジネスに応用するためのビジネスの専門知識

などである。一つ一つとっても難しく、そのようなスキルを複数持っていなければならない。データサイエンティストになろうと思ってもハードルが高すぎるのである。

データサイエンティストという職業ができたのもつい最近なので、一般人からデータサイエンティストを量産するような育成法もまだ確立されていない。

データサイエンスプラットフォームの登場

データサイエンティストが不足する中で、分析業務の一部を自動化し、一般ビジネスユーザーでもデータ分析を出来るようにする、データサイエンスプラットフォームが注目を集めている。

これを活用することにより、データサイエンスに詳しくない人でも、データ分析を行うことが可能になってきた。

データサイエンスプラットフォームの例

データプレパレーションツール

プレパレーション(preparation)とは「準備」という意味。データプレパレーションツールは、いろんな形式のデータをそれぞれ読み込み、加工処理を行う。そして、自由な形式で出力することが出来る。

データの種類は多種多様だが、分析するためにはある程度形式を整えなければならない。使いやすい形にデータを加工しなければ、有意義な分析を行うことはできなからだ。

このデータの加工はとても時間のかかる作業だ。「データ分析の所要時間の80%がデータの加工処理に使われている」という話もある。

この面倒くさいデータの加工処理を自動でやってくれるのがデータプレパレーションツールだ。これを用いることで専門の部門に依頼していた巨大データや非構造化データの抽出・加工を、一般のビジネスユーザでも出来ようになる。時間とお金が浮く。

集計分析の所要時間が減れば、分析の試行回数も増やせる。その結果、分析の質も向上させることが出来るだろう。

ひとつ、データプレパレーションツールを導入した事例を紹介しよう。情報元はこちら

食品飲料メーカーであるペプシコは、売上や在庫のデータ分析にデータプレパレーションツールである「Trifacta」というツールを導入した。その結果、データの加工処理にかかっていた時間が70%削減できたという。

ツールを導入する前はエクセル等を用いていたが、データによってフォーマットが異なり、加工処理に多くの時間を掛けていた。

機械学習自動化プラットフォーム

データ分析のツールとして機械学習は有名だ。

機械学習とは、コンピュータが勝手に知識やパターンを学習する仕組みのこと。一言に「機械学習」といっても沢山の種類がある。有名所を挙げると最近のブームな「ディープラーニング」や昔から有名な「k-means法」などだ。分析するデータの種類や、分析目的などで最適な機械学習アルゴリズムは異なる。

機械学習のアルゴリズムを動かすには、ハイパラメータという値を設定する必要がある。このパラメータは適当に設定してはダメで、これをうまく設定しないと機械学習の精度が落ちる。

以上のように、機械学習を扱うのは難しく、「機械学習のアルゴリズムにデータを適当に放り込めば何かすごいことが出来る」というものではないのだ。

どの機械学習アルゴリズムを選択するか、どのようにハイパラメータを定めるか、といったところはデータサイエンティストの腕の見せどころである。逆に言えば、素人ではうまくできなくて、高いレベルのスキルや経験が必要となる。

 

そんな中で、高度な専門性が要求される機械学習を使った業務を自動化する「機械学習自動化プラットフォーム」が注目されている。

機械学習自動化プラットフォームでは、アルゴリズムの選択、ハイパラメータの設定、モデルの精度評価などを自動化する。

有名な機械学習自動化プラットフォームは、2012年にアメリカで創業したDataRobot社が開発した「DataRobot」というツールである。アルゴリズムの選択からモデルの精度評価までの機械学習の過程を完全自動化することに成功した。

ニューヨーク・メッツはドラフトで誰を指名するかといった意思決定の際に、DataRobotを活用しているという。

ビジネスインテリジェンスツール(BIツール)

ビジネスインテリジェンスツール(BIツール)とは、いろいろな形式のデータを取り込んで、そこから可視化データ(グラフや表)を作成し分析することの出来るツールである。

近年では、自然言語処理との融合が熱い。適当なワードを何個か入力するだけで、ワードを検索して、対応するグラフを自動生成することなんかも出来る。googleで検索するようにワードを入れるだけで、可視化されたデータが出てくる。

自動化できない事

今まで紹介したようなツールを用いることで、予測モデルを抽出したり、わかりやすいグラフや表をお手軽に作れるようになった。

しかし、それらを活用し、ビジネスに応用するフェーズについては、自動化されていない。分析結果を見て「じゃあどうするか」の判断は自分でやらなければいけない。

分析が簡単にできるようになりつつあるが、そうなってくると、分析ができる人間とできない人間との格差が広がるだろう。データから洞察を得る訓練が必要だ。

「洞察を得ることの自動化」にも取り組まれつつあるが、「活用する人間の精度」よって得られる結果に差が出る所は変わらないだろう。

そもそも、こういったサービスを知らない人間や企業も出てくる。そうなってくると格差はめちゃくちゃ大きくなる。

これらの技術をうまく活用出来る人間が、次の時代の勝者となる。