となりずむ

Appleを理解して翻訳する。それが「t0nAr1sm(となりずむ)」

iPhone 17 Proで4000億パラメータ級のAIが動く?「Flash-MoE」の衝撃と現実

オレンジ色の筐体にトリプルカメラとセンサーを搭載したiPhoneの背面デザイン。背景には電子基板の回路図を模した白いラインのアートワークが描かれている

✅この記事では、iPhone 17 Proで4000億パラメータ級の大規模言語モデルが起動した話がどこまで本当で、どこからが実用の壁なのかが分かります。

スマホで巨大AIが動くと聞いて身構えた人ほど、速さ・メモリ・バッテリーの現実まで見ておくと受け取り方が変わります。

どうも、となりです。

「iPhoneで4000億パラメータのモデルが動いた」と聞くと、かなり未来っぽく見えますよね。しかも4000億という数字は、スマホ向けとしてはかなり大きい部類で、普通なら本体メモリだけでは抱えにくい規模です。ただ、今回すごいのは“快適に使えた”ことではなく、“12GBメモリのスマホでも起動までは持っていけた”ことです。

しかも、そのやり方が力技だけではありません。Appleが2023年に出した研究「LLM in a flash」と、今回の外部デモで使われたオープンソース実装のFlash-MoEがかなり近い方向を向いていて、iPhoneのSSDを実質的な逃げ道として使ったところが今回の肝になっています。

要点まとめ:スマホで動いたこと自体は大きいですが、まだ常用の速さではありません

今回の話は、iPhone 17 ProがいきなりChatGPT級の快適さを手に入れた、という意味ではありません。大きいのは、メモリに収まらない巨大モデルでも、SSDから必要なぶんだけ流し込みながら推論を続ける道筋が見えたことです。スマホの弱点そのものが消えたのではなく、弱点を回り込む方法が見えた、という受け止め方が近いです。

  • iPhone 17 Proで、4000億パラメータ級のQwen系モデルをローカル起動するデモが公開されました。
  • 使われたのは、SSDからGPUへ重みを順次ストリーミングするFlash-MoEです。
  • モデルはMixture of Experts型で、毎トークンごとに全体ではなく一部の専門回路だけを使います。
  • 実測は0.6 tokens/secで、体感では1.5〜2秒に1語くらいのかなり遅い動きです。
  • Appleは2023年に、フラッシュメモリを使ってDRAM容量を超えるLLMを動かす「LLM in a flash」を発表していました。
  • iPhoneのメモリ上限とAIの壁は、この時点でもまだ強く残っています。

つまり、iPhone 17 Proで4000億パラメータ級モデルが起動したのはかなり象徴的です。その一方で、速さはまだ会話向きではありません。今回見えてきたのは「スマホで巨大AIを快適に回せた」という結論ではなく、「SSDを使えば起動できる範囲は広がる」という次の一歩です。

詳細解説:12GBメモリで4000億パラメータを起動できた理由

まず前提が1つあります。4000億パラメータといっても、毎回4000億すべてを同時に振り回しているわけではありません。今回使われたQwen3.5-397B-A17BのようなMoEモデルは、巨大な本体を持ちながら、1トークンごとに実際に使うのは一部のエキスパートだけです。

この仕組みがあるので、総パラメータが大きくても、毎回必要になる計算量とメモリ量は少し抑えやすくなります。とはいえ、重み全体が巨大であること自体は変わらないので、12GBのLPDDR5Xだけで丸ごと抱えるのは無理があります。ここが分かれ目で、MoEは計算を軽くしてくれても、保存先まで軽くしてくれるわけではありません。

そこで使われたのがFlash-MoEです。モデル全体をRAMへ載せるのではなく、SSDに置いた重みを必要なタイミングでGPU側へ順次送るやり方で、iPhone 17 Proでも4000億パラメータ級モデルの起動に持ち込んでいます。GitHubの説明でも、209GB級モデルをSSDからMetalパイプライン経由で流し込む構成が示されています。

この考え方は、Appleが2023年に発表した研究「LLM in a flash」とかなり重なります。Appleの研究は、フラッシュメモリからの読み出し回数を減らしつつ、まとまった単位で読みやすくすることで、限られたDRAMしかない環境でも大きなモデルを扱う、というものでした。一方のFlash-MoEは、その発想を外部開発者が実装として押し進めたもの、と見ると分かりやすいです。

話が少し広がりますが、iOS 26で広がるローカルAIモデルでも、Appleは「端末側でどこまで処理を抱えられるか」をじわじわ押し広げています。今回のデモはApple公式機能ではありませんが、方向としては無関係ではありません。

0.6 tokens/secは何がつらいのか

数字だけだと伝わりにくいですが、0.6 tokens/secはかなり遅いです。英語でざっくり1.5〜2秒に1語、日本語でも返答を気持ちよく読むには厳しい水準で、普通の対話型AIを思い浮かべるとギャップが大きくなります。正直、これだと返事を待つ時間がかなり長く感じます。

この速度でも価値がまったくないわけではありません。ネットにつながずに巨大モデルをローカルで回せる、という一点だけでも意味はありますし、途中で別の作業をしながら長い推論を待つ用途なら成立する場面はあります。会話の代わりに使うのか、それとも重い処理を端末側へ残したいのかで評価が変わることです。

ただ、実用の中心がそこかというと、まだ違う気がします。普段使いの会話、検索代わりの即答、音声アシスタントのような反応速度が前提の機能には、そのままでは入りにくいです。

比較すると差はもっとはっきりします。Llama 4 MaverickはM3 UltraのMLX環境で50 tok/secが報告されていて、AppleのM5 ProやM5 MaxでもLLMのプロンプト処理が大きく伸びたとされています。M5世代MacBook ProのAI処理が注目されたのも、この「動く」と「使いやすい」の差が大きいからです。

注目したいポイント:これはメモリ不足の解決ではなく、設計の逃げ道です

今回いちばん見落としやすいのは、SSDストリーミングがそのままRAM増量の代わりになるわけではないことです。SSDは大容量ですが、演算のたびに必要な重みを呼びに行く以上、レイテンシと帯域の壁は残ります。ここが厄介で、容量の問題は少し逃がせても、速度の問題までは同じ形では逃がせません。

Flash-MoEのGitHubでも、Apple SiliconではSSD DMAとGPU計算が同じメモリコントローラを取り合うため、並列化しても得をしにくいと説明されています。つまり、速くするより先に、まず成立させるための構成なんですよね。

バッテリー負荷や発熱も気になりますが、その定量データはまだ出ていません。SSDを頻繁に使うことでストレージ寿命へどう響くのかも、現時点では公式の説明がなく、長期影響はまだ確定していません。

なので受け止め方としては、「巨大モデルをスマホで常用できるようになった」ではなく、「巨大モデルをスマホで起動する手段が一段増えた」くらいがちょうどいいです。派手さはありますが、本質はかなり地味な土木工事に近い話です。

海外の反応:称賛と冷静さが同じ場所に並んでいます

ひとつは、Appleが長年積み上げてきたハードウェア設計の強さを評価する声です。もうひとつは、MoEだから軽いと言ってもVRAMやメモリの壁は消えない、というかなり冷静な見方でした。そこに、RAMの役割をめぐる皮肉も混ざっています。称賛がそのまま実用評価にはつながっていない、という空気でした。

Appleの下積みが生きてきた
独自チップへ投資してきた積み重ねが、AI時代になって効率の差として返ってきた、という受け止め方です。
MoEでもタダではない
アクティブな部分だけ使う仕組みでも、巨大モデル全体を支えるメモリとストレージは結局必要で、高価な環境が要るのではという不満が出ていました。
RAMを軽く見るなという皮肉
AIはRAMの上で動くわけではない、という言い方に対して、まともな速度を出すにはRAMが不可欠だろう、というツッコミも印象的でした。

となりの見方:Appleのハードウェア設計がAI時代に合っていた、という見方にはかなり説得力があります。ただ、それだけで「iPhoneのメモリはこのままでいい」とは言いにくいです。今回のデモがすごいほど、逆にRAMを増やしたときの伸びしろも見えてしまうからです。Appleが今後どこまでiPhoneのメモリを増やすかで、これは研究寄りの話で終わるのか、日常機能へ降りてくるのかが分かれそうです。

ひとこと:Apple Intelligenceの将来像を考える材料にはなります

今回のデモはApple Intelligenceそのものではありませんし、Appleが同じような4000億パラメータ級モデルをiPhoneへ直接載せると決めたわけでもありません。ここが分かれ目で、研究の方向と製品の採用判断はまだ別です。

それでも、Appleが研究として示した方向と、外部開発者が実装として見せた方向が近いのは気になります。Appleが今後もオンデバイスを重視するなら、モデルを小さく賢くするのか、メモリを増やして扱える幅を広げるのか、そのどちらも避けて通れなさそうです。

まとめ:すごいのは「快適さ」より「成立したこと」です

iPhone 17 Proで4000億パラメータ級LLMが起動したという話は、本当に起きています。ただし、0.6 tokens/secという実測を見ると、現時点では技術デモの色がかなり濃いです。結局どっちなのかで言えば、快適なAI体験というより、限界を押し広げた実験として見るのが自然です。

毎日のAI体験として見るなら、急ぎで返答を求める用途にはまだ向きません。返答の待ち時間で困る使い方を想像しているなら、まだ早いかもしれません。一方で、ローカル実行やプライバシー重視の長い処理なら、将来に向けたヒントは十分あります。ぼくは今回の価値を「巨大モデルがスマホで使えるようになった話」ではなく、「iPhoneの限界線が少しだけ先に動いた話」として見ています。

ではまた!

Samsung T7 Shield 1TB 外付けSSD

Samsung T7 Shield 1TB 外付けSSD

  • Samsung

ローカルAIや大きなデータをMacやiPhoneのあいだで持ち運ぶ場面なら、外付けSSDは用途がかなり分かりやすいです。

Amazon

Source: Wccftech