ホーム ビジネスと財務 AIモデル小型化:蒸留技術

AIモデル小型化:蒸留技術

20
0

今年初め、中国の人工知能企業DeepSeekが開発したチャットボット「R1」が大きな注目を集めました。その理由は、世界的に有名なAI企業とは比べ物にならない規模の小さな企業が、大手企業を凌駕する性能を持つチャットボットを、圧倒的に少ない計算資源とコストで開発したと主張したことにあります。この発表を受け、多くの西洋のテクノロジー企業の株価が暴落し、特にAIモデルの稼働に不可欠なチップを販売するNvidiaは、史上かつてない規模の1日での株価下落を経験しました。

しかし、この注目には非難のニュアンスも含まれていました。DeepSeekが、OpenAIの独自モデル「o1」の情報を許可なく取得し、蒸留と呼ばれる技術を用いてR1を開発したという疑惑が浮上したのです。多くの報道は、この可能性をAI業界への衝撃として捉え、DeepSeekがAI開発における新たな、より効率的な手法を発見したかのように伝えました。

ところが、「蒸留」あるいは「知識蒸留」と呼ばれるこの技術は、AI分野では広く用いられている手法であり、10年以上にわたるコンピューターサイエンス研究の主題であり、大手テクノロジー企業も自身のモデルに利用しています。「蒸留は、モデルの効率化を図る上で、企業が現在保有する最も重要なツールの1つです」と、ペンシルバニア大学ウォートン校で蒸留を研究するエンリック・ボイクス・アドセラ氏は述べています。

蒸留のアイデアは、2015年にGoogleの3人の研究者(その中には「AIのゴッドファーザー」と呼ばれ、2024年にノーベル賞を受賞したジェフリー・ヒントン氏も含まれる)によって発表された論文に端を発します。当時、研究者たちはしばしば、性能向上のため、複数のモデルを組み合わせたアンサンブルモデルを使用していました。「多くのモデルを組み合わせたもの」と、Google DeepMindの主席科学者であり、論文の共著者でもあるオリオル・ビニャルス氏は説明します。「しかし、すべてのモデルを並列で実行するのは非常に面倒でコストがかかりました。そこで、それを単一のモデルに蒸留するというアイデアに興味を持ったのです。」

研究者たちは、機械学習アルゴリズムの大きな弱点に着目しました。それは、間違った回答すべてが、その間違いの度合いに関わらず、同じように悪いとみなされるという点です。例えば、画像分類モデルでは「犬をキツネと間違えることと、犬をピザと間違えることは同じようにペナルティを受けました」とビニャルス氏は言います。研究者たちは、アンサンブルモデルの中に、どの間違った回答がそれほど悪くはないかという情報が含まれているのではないかと推測しました。もしかしたら、より小さな「生徒」モデルが、大きな「教師」モデルからの情報を使って、画像を分類すべきカテゴリをより迅速に理解できるかもしれません。ヒントン氏はこれを「暗黒知識」と呼び、宇宙論における暗黒物質になぞらえました。

ヒントン氏との議論の後、ビニャルス氏は、大きな教師モデルからより多くの情報を小さな生徒モデルに伝える方法を開発しました。その鍵は、教師モデルにおける「ソフトターゲット」に着目することでした。これは、明確な答えではなく、それぞれの可能性に確率を割り当てる方法です。例えば、あるモデルが、画像に犬が写っている確率を30%、猫が写っている確率を20%、牛が写っている確率を5%、車が写っている確率を0.5%と計算した場合、教師モデルは生徒モデルに対し、犬と猫は非常に似ており、牛とはそれほど違いがなく、車とは大きく異なることを効果的に示すことになります。研究者たちは、この情報が、生徒モデルが犬、猫、牛、車の画像をより効率的に識別するのに役立つことを発見しました。大きく複雑なモデルを、精度の低下をほとんど招くことなく、より効率的なモデルに縮小できるのです。

このアイデアは、すぐに受け入れられたわけではありません。論文は会議で拒否され、ビニャルス氏は落胆し、他のテーマに転向しました。しかし、蒸留は重要な時期に到来しました。この頃、エンジニアたちは、ニューラルネットワークに投入するトレーニングデータが多ければ多いほど、ネットワークの有効性が高まることを発見していました。モデルの規模は急激に拡大し、その能力も向上しましたが、実行コストも規模に比例して増加しました。

多くの研究者たちが、より小さなモデルを作る方法として蒸留に目を向けました。例えば、2018年にはGoogleの研究者たちが、BERTと呼ばれる強力な言語モデルを発表し、すぐに数十億件のウェブ検索の解析に利用されるようになりました。しかし、BERTは大きく、実行コストも高かったため、翌年、他の開発者たちがDistilBERTと呼ばれる小型版を開発し、ビジネスや研究で広く使用されるようになりました。蒸留は徐々に普及し、今ではGoogle、OpenAI、Amazonなどの企業がサービスとして提供しています。arxiv.orgのプリプリントサーバーにのみ掲載されている元の蒸留に関する論文は、現在2万5000回以上引用されています。

蒸留には教師モデルの内情へのアクセスが必要となるため、DeepSeekがしたとされるように、OpenAIのクローズドソースモデルであるo1からこっそりとデータを蒸留することは不可能です。とはいえ、生徒モデルは、教師モデルに特定の質問をして、その回答を使って自身のモデルをトレーニングすることで、教師モデルから多くのことを学ぶことができます。これは、一種ソクラテスの方法と言えるでしょう。

一方、他の研究者たちは新たな応用を探求し続けています。1月には、UCバークレーのNovaSkyラボが、蒸留が複雑な質問に答えるために複数ステップの「思考」を用いる思考連鎖推論モデルのトレーニングに有効であることを示しました。同ラボは、完全にオープンソースのSky-T1モデルのトレーニング費用が450ドル以下であり、はるかに大きなオープンソースモデルと同等の結果を得たと述べています。「この設定で蒸留がこれほどうまく機能することに、私たちは本当に驚きました」と、バークレー大学院生でNovaSkyチームの共同学生リーダーである李達成氏は述べています。「蒸留は、AIにおける基本的な技術です。」

Source: Distillation Can Make AI Models Smaller and Cheaper

返事を書く

あなたのコメントを入力してください。
ここにあなたの名前を入力してください