誰でも簡単に使える機械学習プラットフォーム「DataRobot」とは?

Home » IT・インターネット » 誰でも簡単に使える機械学習プラットフォーム「DataRobot」とは?
IT・インターネット, ソフトウェア・仮想化 コメントはまだありません

DataRobotが国内ビジネスを本格始動

2017年03月06日 08時30分更新

文● 羽野三千世/TECH.ASCII.jp

 「誰でも簡単に使える」がコンセプトの機械学習プラットフォームを開発する米DataRobotが、日本市場でのビジネスを本格始動する。同社は2月28日、都内で記者説明会を開催し、東京オフィスの開設と、国内向け事業を統括するカントリーマネージャーに原沢滋氏が就任したことを発表した。

 同社は、損保会社で機械学習の予測モデルを作る仕事をしていた2人のデータサイエンティストが独立し、2012年に米国ボストンで創業した企業。データサイエンティストが有する専門知識やノウハウをソフトウェアに落とし込み、機械学習の予測モデル作成を完全自動化する「DataRobot」を開発・提供している。「予測モデルの作成を自動化することで、これまでデータサイエンティストにしかできなかった仕事を業務部門の担当者でも担えるようになる。データサイエンティスト不足の問題も解決する」(同社 副社長 ラジ・ラジウディン氏)。

米DataRobot ビジネスディベロップメント バイスプレジデント ラジ・ラジウディン氏

DataRobotで患者の再入院を予測するモデルを作成してみる

 DataRobotはどのようなソフトウェアなのか。同社のデータサイエンティストであるシバタアキラ氏のデモを紹介する。デモでは、ヘルスケア領域での機械学習を例に、訓練データから複数の予測モデルを自動作成し、最も精度が高いとされたモデルを適用してデータ分析を行った。

 訓練データとして用意されたのは、米国の医療機関が研究目的で公開している「入院治療を受けた糖尿病患者の患者プロフィール(人種・性別・年齢・体重、緊急外来を受診した回数、入院回数など)と再入院の有無」をまとめたExcelファイル。このファイルをDataRobotに読み込ませて、患者が再入院する確率を予測するモデルを作成する。

予測モデルを作成するための訓練データ

 Excelファイルをドラッグ&ドロップでDataRobotへインポート。

訓練データのファイルをドラッグ&ドロップでDataRobotへインポート

 データが読み込まれると「何を予測しますか?」と聞かれるので、ここで予測するターゲットを指定する。今回は再入院の確率を予測するモデルを作るため、「再入院」を指定。これで準備は終わりで、あとは「開始」ボタンを押せば予測モデルの作成が開始される。

予測するターゲットを指定。あとは「開始」ボタンをクリックすると予測モデルの作成が開始される

 DataRobotには、TensorFlow、Decision tree(決定木)、ナイーブベイズ、SVMなど100以上のアルゴリズムが用意されている。最適なモデリング手法はデータによって異なるため、DataRobotでは複数のアルゴリズムの適用を試し、精度の高い順にモデルを提示する。「2つ以上のアルゴリズムを組み合わせたアンサンブルモデルも作成する」(シバタ氏)。

 作成された予測モデルは、どのようなデータ処理が行われるのかフロー図で確認することができる。「データを機械学習にかけるには、データのクレンジングや欠損の保管、日本語であれば単語に分割するなどの前処理が必要になる。DataRobotでは、この前処理もモデルに含む。ここにデータサイエンティストのノウハウが詰まっている」(シバタ氏)。

予測モデルのフロー図。DataRobotのモデルにはデータの前処理も含まれる

 また、その予測モデルにおいて、どのデータが重要なのか(予測モデルの精度を高めている因子)を「特徴量のインパクト」として見ることができる。「入院回数と緊急来院数のデータが予測モデルの精度に効いている、といったことが分かる。ここで実際の現場では、インパクトの大きいデータを追加したり、別の訓練データを追加したりといったように、データとモデルを行き来する作業を行う」(シバタ氏)。

予測モデルの精度を決めるのは何かを表す「特徴量のインパクト」

 デモでは、自動作成された予測モデルのうち、最も精度が高いとされたモデルを選択して、これから退院する糖尿病患者のデータ10件を分析。各々の患者が再入院する確率を計算した。機械学習によって再入院の確率が高いと計算されても、その理由は患者によって異なる。病院では、医師が個々の患者にその理由を説明する必要がある。DataRobotは、各々の患者について「なぜ再入院の確率が高いのか」の理由を説明できるよう、サンプルごとに分解して因子を提示する「リーズンコード」という独自機能を実装している。

 「開発方針として、分析結果に至る経緯がブラックボックス化することを禁止にしている。そのために、高精度だが複雑なアルゴリズムよりも、線形回帰モデルなど説明がつきやすく分かりやすいアルゴリズムを採用してその精度を向上させることに取り組んでいる」(シバタ氏)。

個々のサンプルについて分析結果についての理由を説明する「リーズンコード」

 ここでは患者の再入院率を下げるための施策につなげる機械学習が例示されたが、同じモデルは、ECサイトへのリピート率を上げるための施策、営業のターゲティングにも応用できる。「DataRobotは、特定の業種や用途に特化せず、汎用的な機械学習を行うプラットフォームとして開発している」とシバタ氏は説明した。

 DataRobotは、AWS上にホスティングしたSaaSと、オンプレミス環境やプライベートクラウドにデプロイできるソフトウェア(エンタープライズ版)の形態で提供している。デモではSaaSを使用したが、ビジネスデータの分析にあたってはエンタープライズ版の需要が高いという。

DataRobot データサイエンティストのシバタアキラ氏

国内ではリクルート、大阪ガスなどが採用

 DataRobotはこれまでに、ECサイトのコンバージョン予測(アジア最大規模のECサイト)、複数地域でマーケテイングを行うためのモデル作成(メガバンク)、与信・不正権利(FinTech企業)などでの利用実績がある。ニューヨーク・メッツのドラフト意思決定にも使われているそうだ。

DataRobot カントリーマネージャー 原沢滋氏

 日本では、2016年7月に新日鉄住金ソリューションズと販売代理店契約を結び、リクルート、大阪ガス、トランスコスモスなどが導入している。カントリーマネージャーに原沢は、日本市場向けのビジネスを強化するために、2017年度末までに日本オフィスで10人を採用し、パートナーも拡大していくと述べた。原沢氏が掲げたビジョンは「機械学習の民主化」。DataRobotで国内の機械学習の裾野を広げていきたいという。

■関連サイト



カテゴリートップへ


コメントを残す