もっと詳しく

AIの領域には常に進歩が見られるが、それは1つの分野に限定される傾向がある。例えば、合成音声を生成するためのクールな新方法は、人間の顔の表情を認識するための方法とはまた別の分野だ。

かつてのFacebook(フェイスブック)から社名が変わったMeta(メタ)の研究者たちは、もう少し汎用性のあるもの、つまり話し言葉、書かれた文字、視覚的な認識を問わず、自分でうまく学習することができるAIの開発に取り組んでいる。

AIモデルに何かを正しく解釈させるための伝統的な訓練方法では、ラベル付けした例を大量(数百万単位)に与えて学習させる方法が採られてきた。猫の写真に猫とラベル付けしたものや、話し手と言葉を書き起こした会話などだ。しかし、次世代AIの学習に必要な規模のデータベースを手作業で作成することは、もはや不可能であることが研究者たちによって明らかにされたため、このアプローチはもはや流行遅れとなった。誰が5000万枚の猫の写真にラベルを付けたいと思うだろうか?まあ、中にはそんな人もいるかもしれないが、しかし、一般的な果物や野菜の写真を5000万枚もラベル付けしたい人はいるだろうか?

現在、最も有望視されているAIシステムの中に「自己教師型」と呼ばれるものがある。これは、書籍や人々が交流している様子を撮影したビデオなど、ラベルのない大量のデータを処理し、システムのルールを構造的に理解するモデルだ。例えば、1000冊の本を読めば、単語の相対的な位置関係や文法構造に関する考え方を、目的語とか冠詞とかコンマが何であるかを誰かに教えてもらうことなく、学ぶことができる。つまり、たくさんの例から推論して得るということだ。

これは直感的に人間の学習方法に似ていると感じられ、そのことが研究者が好む理由の1つになっている。しかし、このモデルも依然としてシングルモーダルになる傾向があり、音声認識用の半教師あり学習システムを構築するために行った作業は、画像解析にはまったく適用できない。両者はあまりにも違いすぎるのだ。そこで登場するのが、「data2vec(データトゥベック)」というキャッチーな名前が付けられたFacebook/Metaの最新研究だ。

data2vecのアイデアは、より抽象的な方法で学習するAIフレームワークを構築することだった。つまり、ゼロから始めて、本を読ませたり、画像をスキャンさせたり、音声を聞かせたりすると、少しの訓練で、それらのことを学習していくというものだ。それはまるで、最初は一粒の種だが、与える肥料によって、水仙やパンジー、チューリップに成長するようなものだ。

さまざまなデータ(音声、画像、テキスト)で学習させた後にdata2vecをテストしてみると、その分野のモダリティに対応した同規模の専用モデルと同等か、あるいは凌駕することさえあったという(つまり、モデルがすべて100メガバイトに制限されている場合は、data2vecの方が優れているが、専用モデルはさらに成長すればdata2vecを超えるだろう)。

「このアプローチの核となる考え方は、より総合的に学習させるということです。AIは、まったく知らないタスクも含めて、さまざまなタスクを学べるようになるべきです」と、チームはブログに書いている。「data2vecによって、コンピュータがタスクを遂行するためにラベル付きデータをほとんど必要としない世界に近づくことも、私たちは期待しています」。

Mark Zuckerberg(マーク・ザッカーバーグ)CEOはこの研究について「人は視覚、聴覚、言葉を組み合わせて世界を体験しています。このようなシステムは、いつの日か私たちと同じように、世界を理解することができるようになるでしょう」とコメントしている。

これはまだ初期段階の研究であり、突如として伝説の「総合的なAI」が出現すると期待してはいけない。

しかし、さまざまな領域やデータタイプに対応する総合的な学習構造を持つAIを実現することは、現在のような断片的なマイクロインテリジェンスの集合体よりも、より優れた、よりエレガントなソリューションであるように思われる。

data2vecのコードはオープンソースで、事前に学習されたいくつかのモデルも含めてこちらで公開されている

画像クレジット:Andriy Onufriyenko / Getty Images

原文へ

(文:Devin Coldewey、翻訳:Hirokazu Kusakabe)