t0nAr1sm

Appleを理解して翻訳する。それが「となりずむ」

推論モデルの限界を証明!Appleが発表した論文が暴くAI「思考の錯覚」の正体

Appleの論文「The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity」のタイトル、著者名、所属(Apple)、Abstract冒頭が表示された表紙ページ

✅この記事では、Appleの研究チームが公開した論文「The Illusion of Thinking(思考の錯覚)」が示した、推論モデル(LRM)の強みと“崩れ方”を、パズルの複雑さという軸で追いかけます。

結論だけ先に言うと、推論は万能に伸びるわけではなく、得意になる帯域急に崩れる帯域がはっきり分かれます。

どうも、となりです。

最近のAIは「考えてから答える」タイプが増えて、体感でも賢くなりましたよね。けど同時に、簡単な質問で長考して外したり、少し複雑になると急に投げ出したり、ムラも目につきます。

僕自身は、論文の検証やアルゴリズムの挙動比較といった研究寄りの用途でAIを使っていますが、それでも“途中までは完璧なのに最後で崩れる”瞬間には何度も出会います。

たとえばChatGPTやGeminiで、ちょっと長めの論理パズルを投げたとき、最初は自信満々に手順を書いているのに、途中から辻褄が合わなくなる──そんな経験、ありませんか。あの「それっぽいのに、どこかズレている感じ」を、きちんと測ろうとしたのが今回の研究です。

この論文は、その“ムラ”を気分ではなく、複雑さをコントロールできるパズルで可視化したのがポイントです。数学ベンチマークだけだと見えにくい差が、かなりストレートに出ます。

ここでいう数学ベンチマークとは、AIがどれだけ難しい数学問題を解けるかを競うテストのようなものです。テストの点数を見ると賢く見えるけれど、「なぜ間違えたのか」「どこで崩れたのか」までは分かりにくい、という課題があります。

要点まとめ:推論は伸びる帯域と崩れる帯域が分かれる

Appleの研究チーム(Shojaee ら)は、推論モデル(LRM)と標準的なLLMを、問題の複雑さを段階的に上げられるパズルで比較しました。結論は「推論=常に強い」ではなく、強みが出るレンジがある、という話です。

  • 評価した推論モデル(LRM):Claude 3.7 Sonnet(Thinkingあり/なし)、DeepSeek-R1 / V3 / R1-Distill-Qwen-32B、OpenAI o3-mini(medium/high)/ o1、Gemini Flash Thinking、QwQ-32B、Qwen2.5-32B
  • 比較対象の標準モデル:Phi-3、Mistral 7B、Llama 3
  • パズル環境(4種類):ハノイの塔(ディスク数)、Checker Jumping(チェッカー数)、River Crossing(ペア数)、Blocks World(ブロック数)で複雑度を調整
  • 数学ベンチマーク:MATH-500、AIME24、AIME25も参照。ただし、差がパズルほど明確に出ない場面があると指摘
  • 3つの推論領域(Three Regimes):低複雑度=標準LLMが同等以上&トークン効率が良い/中複雑度=LRMが優位/高複雑度=閾値超えで両者とも精度がゼロへ崩壊
  • 推論努力の限界:複雑さに合わせて思考トークンは増えるが、崩壊点の近くで逆に減る挙動が見えた
  • 思考プロセスの“クセ”:単純問題でのオーバーシンキング/複雑問題での初手ミスへの固執(回復不能)
  • アルゴリズム実行の限界:解法アルゴリズムをプロンプトで与えても、崩壊点の改善は限定的だった
  • 実験条件:最大トークン数 64,000、温度 1.0(サンプリングなし検証では 0)
つまり、推論モデルの登場(起)を受けて「考えれば強くなる」前提が広がり(承)、Appleの論文が複雑度を制御したパズルで“強い帯域”と“崩れる帯域”を分けて示し(転)、いまは推論を伸ばす設計がどこで頭打ちになるのかを見極める段階(結)という流れです。

詳細解説:なぜ「パズル」で差が見えやすいのか

この論文の設計で大きいのは、パズルを使って同じ論理構造のまま複雑さだけを上げるところです。たとえばハノイの塔なら、ルールは固定でディスクの数だけが増えます。

数学ベンチマーク(MATH-500、AIME24、AIME25)でも差は見られますが、タスクのバリエーションが広く、結果が混ざりやすいです。パズル環境は「どこから崩れるか」を一本の軸で追えるので、LRMの得意・不得意が輪郭として出やすい、というわけです。

言い換えると、「正解したかどうか」だけを見るのではなく、「どの難易度で急に失敗し始めるのか」を見る設計です。ここが、読んでいて一番面白いポイントでもあります。

検証に使われた4つのパズル環境

  • Tower of Hanoi(ハノイの塔):ディスク数で複雑度を調整
  • Checker Jumping:チェッカー数で複雑度を調整
  • River Crossing(川渡り):ペア数で複雑度を調整
  • Blocks World:ブロック数で複雑度を調整

    4種類のパズル環境(Tower of Hanoi、Checkers Jumping、River Crossing、Blocks World)の初期状態・中間状態・目標状態を並べた比較図

    本研究で用いられた4つのパズル環境。上段が初期状態、中段が途中状態、下段が目標状態を示す。複雑さを段階的に変えながら、推論モデルの振る舞いを検証している

注目したいポイント:3つの領域は「推論=常勝」を否定する

正直、ここがいちばん刺さるところです。推論モデルは確かに強い場面がある一方で、「推論を足せば何でも解ける」みたいな絵は成立しにくい、という結果になっています。

低複雑度では、標準LLMがLRMと同等以上の精度を出し、しかもトークン効率が良いとされます。つまり、簡単な問題にまで“長考”を付けると、コストだけ増えて得をしない可能性がある。

これは、日常で言えば「1+1は?」と聞かれて、延々と推論ログを出力し始めるようなものです。賢そうに見えても、やっていることは遠回り、という状態です。

中複雑度に入ると、LRMの思考プロセス(Chain-of-Thought)が効いて、精度差が広がります。ここが、いわゆる「Thinkingが強い」と体感しやすい帯域です。

Chain-of-Thoughtとは、AIが頭の中の手順を文章として書き出しながら考える仕組みのことです。途中式を見せながら解く、とイメージすると分かりやすいと思います。

高複雑度では、一定の閾値を超えた瞬間に、LRMも標準LLMも精度がゼロへ落ちる“崩壊”が見えた、とまとめられています。伸びが鈍るのではなく、落ち方が急なのが怖いところです。

思考トークンの挙動:増えるはずが、崩壊点で減る

もうひとつ面白いのが、推論努力(思考トークン)のスケーリングです。複雑さが増えると、最初はそれに合わせて思考トークンも増えます。

ところが崩壊点の近くで、思考トークンが逆に減る挙動が確認された、とされています。人間でも、難しすぎる問題にぶつかると手が止まることがありますが、それに近い“諦め方”に見えるのが気になるところです。

ChatGPTやGeminiで難しい推理問題を出したとき、最初は丁寧に手順を書いていたのに、途中から急に説明が短くなる──そんな挙動を見たことがあるなら、それがまさにこの現象に近いです。

思考プロセスの中身:オーバーシンキングと固執

結果(正誤)だけでなく、思考のトレースを見たときのパターンも整理されています。

  • オーバーシンキング:単純な問題で早期に正解へ到達したあとも、探索を続けて誤った方向へ逸れる
  • 回復不能な固執:複雑な問題で初期の誤りに固執し、残りのトークン予算を浪費する
  • 非単調な失敗:より難しい問題なのに、より手前のステップで失敗するなど、一貫しない崩れ方が出る

「賢いモデルほど安定して強い」と思いたくなりますが、ここは逆で、推論の“やり方”が増えるぶん、崩れ方の種類も増える印象があります。

アルゴリズムを書いても解けない:実行能力の壁

Redditでも反応が強かったポイントですが、この論文では、解法アルゴリズムをプロンプトで与えても、モデルの論理的ステップ実行能力には限界があり、崩壊点は改善されなかった、とされています。

これは、「やり方を知っている」と「その通りに最後までやり切れる」は別だ、という話です。人間でも、手順を理解しているのに途中で計算ミスをすることがありますよね。それが、モデル規模を上げても完全には消えない、という示唆です。

この結果は、「文章として理解する」と「手続きを正しく回す」が別物だ、という話にもつながります。Apple Intelligenceのように実用へ寄せるなら、ここはツール連携外部の実行系で補う設計が現実的になりやすいです。

AppleのAIが“どこを本体でやり、どこを外へ逃がすか”という分担は、Private Cloud ComputeとM5サーバーの話ともつながります。

日本向けの補足:製品実装はまだ線引きが必要

この論文は研究としての公開で、日本のApple公式サイト(Newsroomなど)での扱い、そして将来的なApple Intelligenceへの具体的な統合計画は、現時点では公式は触れていません

同じく、iPhone・iPad・Macといったデバイスへ「いつ」「どう」入るか、API料金や消費電力への具体的な影響、推論崩壊を克服する次の学習法やアーキテクチャの詳細は、論文の範囲外で、ここは条件次第になります。

Redditの反応:ショックだったのは「アルゴリズムを走らせられない」

反応の軸は大きく3つでした。①アルゴリズム実行の限界への驚き、②Appleが自社の期待値を下げるような研究を出す面白さ、③評価手法(ベンチマーク)の転換への期待です。

アルゴリズムを書いても“回らない”のが一番ショック
プロンプトで手順を渡しても、論理を追っているというより出力確率を積んでいるだけに見える、という受け止め方が出ていました。

Appleがここまで批判的な論文を出すのが興味深い
自社のAI戦略が進む中でも、魔法みたいな期待を抑えたいのでは、という見方です。

ハノイの塔が解けないならAGIはまだ遠い
象徴的なパズルすら落とすなら、汎用知能に必要な“安定した計画能力”は別物だ、という温度感でした。

オーバーシンキングは日常で体感している
簡単な質問に長考して外すイライラが、数値化されて納得した、という声です。

数学ベンチマークの汚染が進むなら、パズル型が健全
データ汚染の疑いがある既存ベンチマークより、複雑度を制御できる環境が必要だ、という主張がありました。

難しくなると“思考を減らす”のが人間っぽい
諦め方が人間の思考停止に似ていて、面白い、という反応です。

となりの見方:個人的には、「推論が強い/弱い」より、強くなる帯域が狭いかもしれないのが一番の示唆だと思います。もし推論が“中くらいの難しさ”でだけ跳ねるなら、実用で大事なのは、難易度を下げる設計(分解・道具・実行系)をどれだけ丁寧に作れるか、になりやすいです。

ひとこと:AIが“考えて見える”理由が、少しだけ分かった

この論文を読むと、「AIは考えていない」と言い切るのも、「考えているから万能」と期待するのも、どちらも危ういなと感じます。強い帯域では本当に頼れるのに、閾値を超えると崩れ方が急で、しかも崩れ方にクセがある。だからこそ、使う側としては「どれくらいの難しさなら任せられるか」を感覚ではなく、タスク設計でコントロールしたくなりますよね。

まとめ:推論は“足せば勝つ”ではなく、使いどころがある

Appleの論文「The Illusion of Thinking」は、推論モデルの強みを否定するのではなく、強い帯域崩れる帯域を分けて見せた研究でした。

難しい問題ほど推論を増やせば解決する、という前提には限界がありそうです。一方で、中複雑度での優位性も示されていて、うまく当てればちゃんと武器になります。

迷うなら、「AIに全部任せる」ではなく、AIが強い難易度へ寄せる方向で、問いの立て方や手順の切り方を工夫する。ここがいちばんブレにくい気がします。

ではまた!

ハノイの塔 パズル 木製おもちゃ 木のおもちゃ ハノイタワー 学習ゲーム 知育玩具

ハノイの塔 パズル 木製おもちゃ 木のおもちゃ ハノイタワー 学習ゲーム 知育玩具

  • ARTIVITEE

“難しくなると急に崩れる”感覚を、手元のパズルで一度なぞってみると、論文の話がスッと腹落ちしやすいです。

Amazon

Source: Apple Machine Learning Research, arXiv, Reddit