
✅この記事では、Appleが公開したオープンソースAIモデル「SHARP」が、なぜ“1枚の写真から1秒未満で3Dシーンを作れる”のか、その仕組みと限界、そしてApple製品とのつながりまで整理します。
- 要点まとめ:SHARPとは何か
- SHARPの仕組みをやさしく整理
- 性能はどれくらいすごい?
- できること/できないこと
- visionOS・iOSとのつながり
- 同時に公開された他の研究
- 注目したいポイント
- ひとこと:研究はもう製品の一歩手前
- まとめ:SHARPは空間時代の基礎技術
どうも、となりです。
AppleのAI研究というと、製品に直接出てくる機能よりも少し先を行く内容が多いですよね。今回の「SHARP」もそのひとつで、論文としてはかなり尖った内容なんですが、じつはvisionOSやiOSの“空間表現”と地続きの研究なんです。
要点まとめ:SHARPとは何か
- Appleが公開したオープンソースAIモデル「SHARP」
- 1枚の2D写真から、写実的な3Dシーンを1秒未満で再構築
- 表現方式は3D Gaussian(ガウシアンスプラッティング)(※三角形のCGではなく、“ぼんやりした光の粒”を大量に並べて立体を表す方法)
- 1回のfeedforward passのみで完結(反復最適化なし)(※AIが途中で何度もやり直さず、1回の処理で一気に結果を出すこと)
- 実世界スケール(メートル単位)を保持した3D表現(※距離感が「それっぽい」ではなく、現実のサイズ感に近いまま再現される)
- 近傍視点の再構成に特化(見えない部分は生成しない)(※写真に写っていない裏側を無理に作らない設計)
- GitHubで誰でも試せる形で公開
New paper from Apple - Sharp Monocular View Synthesis in Less than a Second
— Tim Davison ᯅ (@timd_ca) December 16, 2025
Mescheder et al. @ Apple just released a very impressive paper (congrats! 🎉🥳). You give it an image and it generates a really great looking 3d Gaussian representation. Uses depth pro. It's really good.… pic.twitter.com/XSZCZA8iio
SHARPの仕組みをやさしく整理
SHARPがやっていることを一言で言うと、「写真を見て、奥行きを推測し、その情報を使って3D空間に“光の塊”を配置する」モデルです。
3D Gaussianとは?
SHARPでは、三角形ポリゴンではなく3D Gaussianという表現を使います。これは、色と光を持った“ぼんやりした粒”のようなものです。
この粒を何百万個も空間に配置すると、特定の視点から見たときに、非常にリアルな3Dシーンとして見えるようになります。

なぜ1秒未満でできるのか
従来のGaussian splatting手法は、同じシーンを複数の角度から撮影し、時間をかけて最適化する必要がありました。(※“最適化”=少しずつズレを直して、見た目を詰めていく作業)
一方SHARPは、
- 深度推定(※写真の各点が「どれくらい奥にあるか」を推測すること)
- 深度の調整
- Gaussianの初期化と微調整
これらを1回のニューラルネットワーク処理でまとめて行います。(※ニューラルネットワーク=画像を見て特徴をつかみ、推測するAIの中身)これにより、合成時間は従来比で数百〜数千分の1に短縮されています。
性能はどれくらいすごい?
論文では、従来の最先端モデルと比較して以下の改善が報告されています。
- LPIPS:25〜34%改善(※「人の目で見たときの自然さ」に近い尺度で比べる指標)
- DISTS:21〜43%改善(※構造や質感がどれだけ自然に保たれているかを見る指標)
- 合成時間は3桁オーダーで短縮
要するに、「速いだけ」ではなく、「画質の指標でもちゃんと勝っている」のがポイントなんです。
できること/できないこと
得意なこと
- 被写体の近くの視点移動(※ちょっと横に動いて覗き込むような“軽い視点変更”)
- 実世界スケールを保った自然な奥行き表現
- 1枚写真からの即時3D化
苦手なこと(トレードオフ)
- 写真に写っていない領域の生成(※裏側や死角は基本的に作らない)
- 複雑な反射表現
- 前後関係が曖昧な被写体(例:花と蜂)
SHARPは「見えていない部分を無理に作らない」設計です。ここを割り切ったからこそ、1秒未満という速度が実現しています。

visionOS・iOSとのつながり
この研究が面白いのは、単なる論文に留まらない点です。
iOS 26では、2D写真を立体的に見せるSpatial Scenesが導入されました。(※写真に“奥行き”をつけて、少し動かして見られるようにするイメージ)またvisionOSでは、写真や映像を“空間”として扱う設計が進んでいます。
SHARPは、そうしたAppleの空間表現戦略を、研究レベルで一気に前進させた存在と見ることができます。
同時に公開された他の研究
AppleはSHARPと同時期に、他にも複数のAI研究を公開しています。
GIE-Bench(画像編集評価)
テキスト指示による画像編集を、
- 指示通りに編集できているか
- 関係ない部分を壊していないか
という観点で評価するフレームワークです。複数モデルを比較した結果、GPT-Image-1が高評価だったことも示されています。(※ここでの“評価”は「見た目の良さ」だけでなく、「指示通りか/余計な破壊がないか」を測る感じです)

IMPACT(言語形態評価)
英語以外の形態変化が複雑な言語(アラビア語・フィンランド語など)に対して、AIがどれだけ正確に理解・生成できるかを測る評価手法です。(※形態変化=単語の形が状況で大きく変わること。日本語でいう「食べる→食べた→食べない」みたいな変化が、もっと複雑に起きる言語もあります)
Appleはここでも、「製品化の前に、きちんと測る」姿勢を強く打ち出しています。

注目したいポイント
SHARPを見て感じるのは、Appleが生成AIを“派手な魔法”としてではなく、構造物として扱っている点です。
全部を生成しない。できる範囲を限定する。その代わり、速度と安定性を極限まで高める。これはvisionOSやApple Intelligence全体にも共通する思想だと思います。
ひとこと:研究はもう製品の一歩手前
SHARPは、まだ研究論文です。でも内容を読むと、「これ、もう製品に入れる前提で作っているよね」と感じる部分が多いんです。
写真を空間に変換する。奥行きを“計算”ではなく“推定”で扱う。しかも即時に。
AppleのAIは、静かですが、確実に次のフェーズに進んでいる気がします。あなたは、この方向性をどう感じますか?
まとめ:SHARPは空間時代の基礎技術
SHARPは、単なる「すごい研究」ではなく、Appleが目指す空間コンピューティングの土台を示す技術です。
見えないところを無理に作らず、見えている世界を正確に立体化する。その姿勢が、結果として驚くほど速く、自然な3D体験につながっています。
これは、AI時代の“静かな革命”なのかもしれません。
ではまた!
Source: 9to5Mac, Apple Machine Learning Research, AppleInsider
