t0nAr1sm

Appleを理解して翻訳する。それが「となりずむ」

Appleの新AI「SHARP」、写真1枚を一瞬で3D化する研究の中身

写真から生成された3Dシーンの例。室内の壁際に、大きく写った鳥の横顔(くちばしと目)が立体的に表示されている様子

✅この記事では、Appleが公開したオープンソースAIモデル「SHARP」が、なぜ“1枚の写真から1秒未満で3Dシーンを作れる”のか、その仕組みと限界、そしてApple製品とのつながりまで整理します。

どうも、となりです。

AppleのAI研究というと、製品に直接出てくる機能よりも少し先を行く内容が多いですよね。今回の「SHARP」もそのひとつで、論文としてはかなり尖った内容なんですが、じつはvisionOSやiOSの“空間表現”と地続きの研究なんです。

要点まとめ:SHARPとは何か

  • Appleが公開したオープンソースAIモデル「SHARP」
  • 1枚の2D写真から、写実的な3Dシーンを1秒未満で再構築
  • 表現方式は3D Gaussian(ガウシアンスプラッティング)(※三角形のCGではなく、“ぼんやりした光の粒”を大量に並べて立体を表す方法)
  • 1回のfeedforward passのみで完結(反復最適化なし)(※AIが途中で何度もやり直さず、1回の処理で一気に結果を出すこと)
  • 実世界スケール(メートル単位)を保持した3D表現(※距離感が「それっぽい」ではなく、現実のサイズ感に近いまま再現される)
  • 近傍視点の再構成に特化(見えない部分は生成しない)(※写真に写っていない裏側を無理に作らない設計)
  • GitHubで誰でも試せる形で公開

SHARPの仕組みをやさしく整理

SHARPがやっていることを一言で言うと、「写真を見て、奥行きを推測し、その情報を使って3D空間に“光の塊”を配置する」モデルです。

3D Gaussianとは?

SHARPでは、三角形ポリゴンではなく3D Gaussianという表現を使います。これは、色と光を持った“ぼんやりした粒”のようなものです。

この粒を何百万個も空間に配置すると、特定の視点から見たときに、非常にリアルな3Dシーンとして見えるようになります。

単一の入力画像から深度推定と3D Gaussian生成を行い、別視点の3Dシーンを合成するSHARPモデルの処理フロー図

SHARPのモデル構成図。入力画像をエンコーダで特徴抽出し、深度推定と調整を経て3D Gaussianを生成・精緻化。最終的にレンダラーで別視点(Novel views)のフォトリアルな3D表現を描画する流れを示している。(※Novel views=元の写真とは違う角度から見た映像のこと)

なぜ1秒未満でできるのか

従来のGaussian splatting手法は、同じシーンを複数の角度から撮影し、時間をかけて最適化する必要がありました。(※“最適化”=少しずつズレを直して、見た目を詰めていく作業)

一方SHARPは、

  • 深度推定(※写真の各点が「どれくらい奥にあるか」を推測すること)
  • 深度の調整
  • Gaussianの初期化と微調整

これらを1回のニューラルネットワーク処理でまとめて行います。(※ニューラルネットワーク=画像を見て特徴をつかみ、推測するAIの中身)これにより、合成時間は従来比で数百〜数千分の1に短縮されています。

性能はどれくらいすごい?

論文では、従来の最先端モデルと比較して以下の改善が報告されています。

  • LPIPS:25〜34%改善(※「人の目で見たときの自然さ」に近い尺度で比べる指標)
  • DISTS:21〜43%改善(※構造や質感がどれだけ自然に保たれているかを見る指標)
  • 合成時間は3桁オーダーで短縮

要するに、「速いだけ」ではなく、「画質の指標でもちゃんと勝っている」のがポイントなんです。

 

 

できること/できないこと

得意なこと

  • 被写体の近くの視点移動(※ちょっと横に動いて覗き込むような“軽い視点変更”)
  • 実世界スケールを保った自然な奥行き表現
  • 1枚写真からの即時3D化

苦手なこと(トレードオフ)

  • 写真に写っていない領域の生成(※裏側や死角は基本的に作らない)
  • 複雑な反射表現
  • 前後関係が曖昧な被写体(例:花と蜂)

SHARPは「見えていない部分を無理に作らない」設計です。ここを割り切ったからこそ、1秒未満という速度が実現しています。

単一画像を入力として、SHARPが別視点の画像と逆深度マップを生成した比較例(入力画像/新規視点レンダリング/逆深度表示)

SHARPの生成結果例。左が入力画像、中央が推定された3D表現から描画した別視点(Rendered novel view)、右が距離関係を色で可視化した逆深度マップ。1枚の写真から立体構造を復元できることを示している。(※逆深度=近いほど強く、遠いほど弱く色などで示す“距離の地図”)

visionOS・iOSとのつながり

この研究が面白いのは、単なる論文に留まらない点です。

iOS 26では、2D写真を立体的に見せるSpatial Scenesが導入されました。(※写真に“奥行き”をつけて、少し動かして見られるようにするイメージ)またvisionOSでは、写真や映像を“空間”として扱う設計が進んでいます。

SHARPは、そうしたAppleの空間表現戦略を、研究レベルで一気に前進させた存在と見ることができます。

同時に公開された他の研究

AppleはSHARPと同時期に、他にも複数のAI研究を公開しています。

GIE-Bench(画像編集評価)

テキスト指示による画像編集を、

  • 指示通りに編集できているか
  • 関係ない部分を壊していないか

という観点で評価するフレームワークです。複数モデルを比較した結果、GPT-Image-1が高評価だったことも示されています。(※ここでの“評価”は「見た目の良さ」だけでなく、「指示通りか/余計な破壊がないか」を測る感じです)

テキスト指示に基づく画像編集を評価する「GIE-Bench」の全体構成図。元画像、編集指示、GPT-Image-1による編集結果と、機能的正しさ評価・内容保持評価の流れを示している

GIE-Benchの評価パイプライン概要。テキスト指示どおりに編集できているかを判定する「機能的正しさ評価」と、編集対象以外の領域がどれだけ保持されているかを測る「内容保持評価」の2軸で、画像編集モデルの品質を定量化する仕組みを示している

IMPACT(言語形態評価)

英語以外の形態変化が複雑な言語(アラビア語・フィンランド語など)に対して、AIがどれだけ正確に理解・生成できるかを測る評価手法です。(※形態変化=単語の形が状況で大きく変わること。日本語でいう「食べる→食べた→食べない」みたいな変化が、もっと複雑に起きる言語もあります)

Appleはここでも、「製品化の前に、きちんと測る」姿勢を強く打ち出しています。

英語・アラビア語・ヘブライ語・ロシア語・トルコ語・フィンランド語の6言語について、Aya、GF2、GFL2、Qwen3、Qwen2.5、Gem3、EuroLLM、Phi-4といった複数の大規模言語モデルの性能を、Gen・JY・JNの3指標で比較したレーダーチャート

各言語(英語、アラビア語、ヘブライ語、ロシア語、トルコ語、フィンランド語)における大規模言語モデルの性能比較。レーダーチャートは、生成性能(Gen)と評価指標(JY/JN)のバランスを示しており、言語ごとのモデル特性の違いが視覚的にわかる。

 

 

注目したいポイント

SHARPを見て感じるのは、Appleが生成AIを“派手な魔法”としてではなく、構造物として扱っている点です。

全部を生成しない。できる範囲を限定する。その代わり、速度と安定性を極限まで高める。これはvisionOSやApple Intelligence全体にも共通する思想だと思います。

ひとこと:研究はもう製品の一歩手前

SHARPは、まだ研究論文です。でも内容を読むと、「これ、もう製品に入れる前提で作っているよね」と感じる部分が多いんです。

写真を空間に変換する。奥行きを“計算”ではなく“推定”で扱う。しかも即時に。

AppleのAIは、静かですが、確実に次のフェーズに進んでいる気がします。あなたは、この方向性をどう感じますか?

まとめ:SHARPは空間時代の基礎技術

SHARPは、単なる「すごい研究」ではなく、Appleが目指す空間コンピューティングの土台を示す技術です。

見えないところを無理に作らず、見えている世界を正確に立体化する。その姿勢が、結果として驚くほど速く、自然な3D体験につながっています。

これは、AI時代の“静かな革命”なのかもしれません。

ではまた!

Source: 9to5Mac, Apple Machine Learning Research, AppleInsider