AIが自分を改良する時代が来た——MiniMax M2.7の"自己進化"を読み解く
MiniMax M2.7は自身のコードを100ラウンド以上自律改良し、30%の性能向上を達成した。SWE-Pro 56.22%、MLE Bench Lite 66.6%メダル率など主要ベンチマークを整理し、自己進化メカニズムの技術的意味を考察する。
エンジニアのゆとです。
この記事にはPR・広告が含まれる場合があります。
3月18日、中国のAIスタートアップMiniMaxが次世代モデル「M2.7」を発表した。注目すべきは「自己進化(Self-Evolution)」という概念。モデルが自分自身の実行環境(ハーネス)を自律的に改良し続けるというもので、これまでの「人間がチューニングする」パラダイムとは明確に一線を画している。
自己進化メカニズム:100ラウンドの自律改良ループ
M2.7の最大の特徴は、モデル自身が以下のループを100ラウンド以上自律的に回したこと。
- 失敗トラジェクトリの分析
- 変更計画の立案
- スキャフォールドコードの修正
- 評価の実行
- 結果比較 → 改善なら採用、悪化ならリバート
このループで内部評価セットに対して30%の性能向上を達成している。具体的には、temperature・frequency penalty・presence penaltyなどのサンプリングパラメータの最適な組み合わせの探索、バグ修正後に他ファイルで同一パターンを自動検索するワークフローの設計、ループ検出の追加などをモデル自身が行った。
個人的には、ここが一番面白い。人間のエンジニアが「scaffold改善 → 評価 → 微調整」をやるのと本質的に同じことを、モデルが自律的にやっている。しかも100ラウンド。人間なら数週間かかる作業だ。
さらに、MiniMaxの強化学習チームの実験ワークフローの30〜50%をM2.7が自律的に処理しているという。研究者はルーチン作業から解放され、クリティカルな判断と議論に集中できるようになったとのこと。
ベンチマーク比較
| ベンチマーク | M2.7 | 比較対象 |
|---|---|---|
| SWE-Pro | 56.22% | GPT-5.3-Codexと同水準 |
| VIBE-Pro | 55.6% | Opus 4.6に迫る |
| Terminal Bench 2 | 57.0% | 複雑なエンジニアリングシステム |
| GDPval-AA ELO | 1495 | OSS最高(Opus 4.6/Sonnet 4.6/GPT-5.4に次ぐ) |
| MLE Bench Lite | 66.6% | Opus 4.6: 75.7% / GPT-5.4: 71.2% / Gemini 3.1と同率 |
| SWE Multilingual | 76.5 | 多言語ソフトウェア工学 |
| Multi SWE Bench | 52.7 | マルチリポジトリ対応 |
| Toolathon | 46.3% | グローバルトップ水準 |
MLE Bench Liteでは24時間×3回の試行で、ベストランで金メダル9個・銀5個・銅1個を獲得し、平均メダル率66.6%。Gemini 3.1と並び、Opus 4.6(75.7%)やGPT-5.4(71.2%)に次ぐポジション。
注目すべきは、MiniMax公式が「10Bクラスの活性化パラメータ数」と言及している点。Tier-1モデルの中では最小クラスで、処理速度はOpus比で約3倍の100TPS、キャッシュ最適化時のコストは100万トークンあたり$0.06とされている。パラメータ効率という観点では相当に攻めている。
本番障害を3分で復旧
エンジニアとして一番グッときたのがこの話。M2.7は本番環境のインシデント復旧時間を3分以内に短縮した実績があるという。
具体的なフローとしては、監視メトリクスとデプロイタイムラインの相関分析(因果推論)、トレースサンプリングの統計分析から仮説を提案、データベースに自発的に接続して根本原因を検証、コードリポジトリからインデックスマイグレーションファイルの欠落を特定、ノンブロッキングなインデックス作成で止血してからMRを提出——という一連を自律的に行う。
障害対応の本質は「原因特定の速さ」なので、ここをAIが3分でやれるなら実用的なインパクトは大きい。
Agent Teams:ネイティブなマルチエージェント協調
M2.7にはAgent Teamsという仕組みが組み込まれている。モデルに求められるのは、ロール境界の維持、敵対的推論(チームメイトの盲点を指摘する能力)、プロトコル遵守、行動の差別化。
複雑なステートマシン内で自律的に判断を下しながら、チーム内での役割を安定的に維持する必要がある。MiniMax社内ではプロダクトプロトタイプ開発に実際に使われているとのこと。
Office編集とOpenRoom
実務寄りの機能として、Excel/PPT/Wordの高忠実度編集がある。TSMCの財務モデリング例では、年次報告書と決算説明会資料を自律的に読み込み、複数のリサーチレポートと照合して収益予測モデルを独自に設計・構築したという。
もう1つ面白いのがOpenRoom。ブラウザ上で動くデスクトップ環境で、AIエージェントが自然言語の指示でアプリケーションを操作する。MITライセンスでオープンソース化されており、React 18 + TypeScript + Viteで構築されている。「コードの大部分はAIが書いた」という点も象徴的。
これが意味すること
M2.7の自己進化は、まだ「スキャフォールドの改善」という限定的なスコープだ。モデルの重み自体を自分で更新しているわけではない。でも、「評価→改善→評価」のサイクルを人間の介入なしに回せるという事実は、今後の方向性を強く示唆している。
個人的には、パラメータ効率の高さに注目している。10Bクラスの活性化パラメータでOpusやGPT-5.4に迫るスコアを出しているのは、アーキテクチャレベルでの工夫があるはず。自己進化による「環境側の最適化」と「モデル自体の効率」の掛け合わせが、MiniMaxの戦略だと読める。
自己進化AIの時代はまだ始まったばかりだけど、M2.7は「ここから先、何が起きるか」を具体的に見せてくれた最初の一歩だと思う。