もっと詳しく

Scale AI(スケールAI)が73億ドル(約8400億円)企業になるまでの道には、画像、テキスト、音声、動画などのリアルデータが敷き詰められていた。現在、その基盤を利用し、AIで最もホットで新しいカテゴリーの1つであるシンセティック(合成)データゲームに参入する。

同社は米国時間2月2日に、機械学習エンジニアが既存の実世界のデータセットを強化するために使える製品「Scale Synthetic」の早期アクセスプログラムを発表した。同社は、この新しい部門を立ち上げるために2人の幹部を採用した。Nines(ナインズ)で機械学習の責任者を務め、Apple(アップル)で3Dマッピングのコンピュータビジョンエンジニアを務めたJoel Kronander(ジョエル・クロナンダー)氏をシンセティックデータ部門の新責任者として、また、Vivek Raju Muppalla(ビベク・ラジュ・ムッパラ)氏をシンセティックサービス部門のディレクターとして採用した。ムッパラ氏は、Unity Technologies(ユニティ・テクノロジーズ)でAIとシミュレーションのエンジニアリングディレクターを務めた人物だ。

シンセティックデータとは、その名の通り、現実世界の情報を使わず、機械学習アルゴリズムによって作成された偽のデータのことだ。医療用画像など、プライバシーが重視されるデータを作成する際に、強力で便利なツールになり得る。開発者はシンセティックデータを使って学習モデルをより複雑にし、収集された実世界のデータセットに散見されるバイアスを取り除くことができる。

Scaleは当初、人がラベル付けした実際の画像、テキスト、音声、動画データとソフトウェアを組み合わせ、自動運転車メーカーに機械学習モデルの学習に必要なラベル付きデータを提供していた。機械学習モデルは、ロボタクシー、自動運転トラック、倉庫やオンデマンド配送に使われる自動ボットの開発と配備に使われる。その後、このスタートアップは、政府、金融、eコマース、自動運転車とエンタープライズ産業などを顧客とするデータ管理プラットフォーム企業へと変貌を遂げた。

創業者でCEOのAlexandr Wang(アレクサンドル・ワン)氏は、この新しいサービスをデータへのハイブリッドアプローチだと表現し、実験室で育てられた肉にたとえた。

「研究室で育てられた肉が本物の動物の細胞から始まるように、私たちは本物のデータから始まり、そこから製品を育て、開発・構築していきます」と同氏はTechCrunchに語った。実世界のデータをベースにしてシンセティックデータを作成することで、実にユニークで強力なサービスを顧客に提供することができると同氏は述べ、同社は市場にそうしたギャップがあると見ていると付け加えた。

Scaleの顧客も、そのギャップを感じていたようだ。同社がシンセティックデータに力を入れたのは、顧客からの需要に応えるためだったとワン氏はTechCrunchに語った。この製品の開発を始めてから、まだ1年経たないという。自動運転車技術開発企業のKodiak Robotics、Tractable AI、米国防総省はいずれも、Scaleの新しいシンセティックデータ製品を採用していると同氏は述べた。

現在、約450人の従業員を抱えるScaleは、シンセティックデータを2022年の最優先事項として捉えており、製品ラインを充実させるために投資を続ける分野だとしている。しかし、それはリアルデータ事業を引き継ぐことを意味するものではない。ワン氏はシンセティックデータを、開発者が「アルゴリズムなどのAIや、特にエッジケースでより多くの利益を得られるようにするための補完的なツール」と考えている。

例えば、自動運転車の会社は通常、シミュレーションを使って現実世界のシナリオを再現し、その環境で自動運転システムがどのように対処するかを確認する。現実世界のデータでは、彼らが求めているシナリオは得られないかもしれない。

「例えば、100台の自転車が一度に横断するようなシナリオは、現実世界ではあまり遭遇しません」とワン氏は説明する。「現実世界のデータから出発して、すべての自転車や人を合成的に追加することで、アルゴリズムを適切に訓練することができるのです」。

画像クレジット:Getty Images

原文へ

(文:Kirsten Korosec、翻訳:Nariko Mizoguchi