DeepSeek、「推論」モデルがOpenAIのo1を特定のベンチマークで上回ると主張

技術112 Views

中国のAI研究所DeepSeekは、DeepSeek-R1と呼ばれる推論モデルのオープンバージョンをリリースしました。このモデルは、特定のAIベンチマークでOpenAIのo1と同等の性能を発揮すると主張しています。

DeepSeek、「推論」モデルがOpenAIのo1を特定のベンチマークで上回ると主張 1 DeepSeek、「推論」モデルがOpenAIのo1を特定のベンチマークで上回ると主張

R1は、AI開発プラットフォームHugging FaceからMITライセンスで入手できます。つまり、制限なく商用利用できます。DeepSeekによると、R1はAIME、MATH-500、SWE-bench Verifiedのベンチマークでo1を上回っています。AIMEは他のモデルを使用してモデルの性能を評価し、MATH-500は文章問題のコレクションです。一方、SWE-bench Verifiedはプログラミングタスクに焦点を当てています。

推論モデルであるR1は、効果的に自己事実確認を行います。これは、通常モデルが陥る落とし穴のいくつかを回避するのに役立ちます。推論モデルは、典型的な非推論モデルと比較して、解決策に到達するまでに少し時間がかかります(通常は数秒から数分)。その利点は、物理学、科学、数学などの分野でより信頼性が高い傾向があることです。

DeepSeekが技術レポートで明らかにしたように、R1には6,710億のパラメータが含まれています。パラメータは、モデルの問題解決能力にほぼ対応しており、パラメータが多いモデルは、一般的にパラメータが少ないモデルよりも優れた性能を発揮します。

6,710億のパラメータは膨大ですが、DeepSeekは、15億のパラメータから700億のパラメータまでのサイズの「蒸留」されたバージョンのR1もリリースしました。最小のものはラップトップで実行できます。完全なR1には、より強力なハードウェアが必要ですが、DeepSeekのAPIを通じて、OpenAIのo1よりも90〜95%安い価格で利用できます。

R1には欠点もあります。中国のモデルであるため、中国のインターネット規制当局によるベンチマークテストの対象となり、その応答が「社会主義の中核的価値観を体現している」ことを保証する必要があります。たとえば、

DeepSeek、「推論」モデルがOpenAIのo1を特定のベンチマークで上回ると主張 DeepSeek、「推論」モデルがOpenAIのo1を特定のベンチマークで上回ると主張

中国のAIシステムの多くは、他の推論モデルを含め、習近平政権に関する憶測など、国内の規制当局の怒りを買う可能性のあるトピックへの回答を拒否します。

R1は、バイデン政権(当時)が中国企業向けのAI技術に対するより厳しい輸出規制と制限を提案した数日後に発表されました。中国の企業はすでに高度なAIチップの購入を禁じられていましたが、新しい規制が書かれたとおりに施行された場合、企業は、高度なAIシステムを構築するために必要な半導体技術とモデルの両方に対して、より厳しい制限に直面することになります。

先週の政策文書で、OpenAIは、中国のモデルが能力的に匹敵または凌駕しないように、米国政府に米国のAI開発を支援するよう促しました。The Informationとのインタビューで、OpenAIの政策担当副社長であるChris Lehane氏は、DeepSeekの親会社であるHigh Flyer Capital Managementを特に懸念される組織として挙げました。

これまでに、少なくとも3つの中国の研究所、DeepSeek、Alibaba、そして中国のユニコーン企業Moonshot AIが所有するKimiが、o1に匹敵すると主張するモデルを開発しました。(注目すべきは、DeepSeekが最初であり、11月下旬にR1のプレビューを発表しました。)ジョージメイソン大学のAI研究者であるDean Ball氏は、X(旧Twitter)への投稿で、この傾向は中国のAI研究所が「ファストフォロワー」であり続けることを示唆していると述べています。

「DeepSeekの蒸留モデルの優れたパフォーマンスは、[…]非常に優れた推論能力を持つモデルが、トップダウンの管理体制の目から遠く離れた場所で、ローカルハードウェア上で実行可能であり続け、広く普及し続けることを意味します」とBall氏は書いています。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です