t0nAr1sm

Appleを理解して翻訳する。それが「となりずむ」

Apple、30億小型AI「Ferret-UI Lite」発表。24倍大型モデルに匹敵

青い光る目を持つ4体の白い人型AIロボットが、デスクに並んで青いラップトップを操作している3Dイラスト。胸部には青いAIロゴが配置されている

✅この記事では、Apple研究チームが発表した3B(30億パラメータ)の小型モデル「Ferret-UI Lite」が、なぜ“アプリを自律操作できる”ところまで来たのかを整理します。

画面をクラウドに投げずに済むプライバシーと、軽量化のトレードオフ(できること/苦手なこと)まで含めて、判断材料に落とします。

ここだけ先に言うと、今回の肝は「AIの賢さ」そのものより、画面のどこを触るかを外さないための工夫です。つまり“考えるAI”というより、“画面を読めるAI”の土台づくりに近いです。

どうも、となりです。

「AIがアプリを勝手に触る」と聞くと、便利さより先に不安が出ますよね。けど今回の話は、“勝手に動くAI”というより、画面を理解して狙った場所を触れるための土台を、かなり現実的なサイズで作ってきた、という話に近いです。

ここでいう「触れる」は、指示文を読んで“なんとなく”動く感じではなく、画面上のボタンやテキストなどのUI要素を特定して、座標として当てにいく意味合いが強いです。

9to5MacはこのFerret-UI Liteを、オンデバイスで動くUIエージェント(端末内で完結しやすい)として紹介しています。IT之家も、学習や評価にAndroid/Web/デスクトップ環境のベンチマークを使っている点を含め、技術の狙いをまとめています。

要点まとめ:小型でも“画面を触れる”精度を取りにいった

ここで大事なのは、モデルを巨大化して力技で押すのではなく、小型のままUI操作の精度を上げる工夫を、学習と推論の両側から積んでいる点です。

専門用語が多いので、先に置き換えると、「画面を見て(理解)→それが何かを言い当て(参照)→どこを触るか決め(グラウンディング)→次の一手を考える(推論)」という流れです。

  • モデルは3B(30億パラメータ)の小型サイズ。
  • 狙いは、モバイルUIの理解(何が表示されているか)と、参照(どれを指しているか)と、グラウンディング(どこを触るか)と、推論(次にどうするか)。
  • 短いタスクや低レベルのGUI操作に限定すると、自分の最大24倍規模の大型モデルに匹敵、または上回ると説明されています(前提条件つき)。
  • 一方で、複雑なマルチステップの対話や長い手順では、大型モデルほど強くない、というトレードオフも明記されています。
  • 画面を外へ送らずに処理できる設計は、プライバシーの面で価値が出やすいです。

「24倍」と聞くとインパクトが強いですが、ここは“全部入りの万能”ではなく、勝てる条件をUI操作に寄せたという読み方が安全です。逆に言うと、条件がズレると期待ほど伸びない可能性もあります。

詳細解説:Ferret-UI Liteは何を“軽くした”のか

このモデルが向いているのは、「設定のこの項目を開いて」みたいな短い指示で、画面の中の要素を見つけて触るタイプの仕事です。逆に言うと、長い会話で条件が増えていくタスクは、どうしても苦しくなりやすいです。

想像しやすくすると「検索して設定アプリを開いて、この項目をタップして…」みたいな短い操作の連続が得意で、「前提が多い相談」や「途中で条件が変わる会話」は苦手、というイメージです。

ポイントは、UI操作を「理解→指す→触る」という連続動作として扱い、特に「触る」ための座標や対象を外さないように、学習データと推論手順を設計しているところです。ここ、体感の差に直結するので、個人的に気になりますね。

「グラウンディング」は難しく聞こえますが、ざっくり言うと言葉を画面上の“この場所”に結び付ける作業です。ここが外れると、どれだけ文章で正しいことを言っても、操作としてはズレます。

FerretモデルのUI理解デモ図。上段は白い犬と2匹のフェレット画像で、region指定からbox0・box1へ出力グラウンディングする流れを表示。下段はサンドイッチ調理画像で、材料や道具をbox0〜box5として参照し手順を説明する例

Ferret(Ferret-UI Lite)の仕組み。入力で指定した「領域(region)」を、出力で具体的な「ボックス(box)」に結び付けることで、画像内の対象を正確に指し示しながら回答・手順生成を行う様子を示している

Ferret-UI LiteのUI理解デモ図。中央にiPhoneのApp Store「Reminders」画面が表示され、Openボタン(box0)、共有アイコン(box1)、Gamesタブ(box2)、4+年齢表示(box3)、タイトル領域(box4)などが枠で示されている。左側に基本タスク(分類・OCR・要素特定)、右側に高度タスク(会話、詳細説明、機能推論)の例が並ぶ構成

Ferret-UI LiteによるUI理解の全体像。ウィジェット分類やテキスト認識といった基礎タスクから、会話形式での操作誘導や画面の機能推論まで、指定した領域(box/point)を手がかりに正確にUI要素を特定・説明できることを示している

推理時クロッピング:まず当てにいって、次に“寄って読む”

Ferret-UI Liteの核のひとつが推理時クロッピング(Inference-time Cropping)です。最初に画面全体でざっくり当たりを付け、狙った領域をクロップしてズームし、細かいアイコンや小さな文字をもう一度認識します。

「クロップ」は写真の切り抜きと同じで、画面の一部を切り出して拡大する動きです。小さいモデルでも、細かいUIを読み違えにくくするための、かなり実務的な工夫だと思います。

スマホのUIって、情報量のわりに部品が小さいんですよね。そこで「最初から全部を高解像度で読む」よりも、「当たり→拡大→再認識」に分けるほうが、軽量モデルでも精度が出やすい、という発想です。

Ferret-UI Liteのズームイン推論デモ図。ユーザーが「Refresh the file explorer」と指示し、Step1で画面全体から対象を予測、Step2で予測領域を拡大(クロップ)して再判定する様子を示す。VS Codeの画面が背景に表示されている

Ferret-UI Liteの推理時クロッピング(zoom-in)手法。まず全体画像から対象位置を粗く予測し、その周辺を切り出して再推論することで、UI要素の特定精度を高める仕組みを示している

合成データ生成:4役を回して“汚い現実”を混ぜる

もうひとつが、マルチエージェントでの合成データ生成です。役割は4つで、タスク生成器(Curriculum task generator)計画(Planning agent)実行(Grounding agent)批評(Critic model)

言い換えると、「練習問題を作る人」「手順を考える人」「実際に触る人」「ダメ出しする人」を分担させて、UI操作の学習データを増やしているイメージです。

ここで面白いのは、理想的な成功例だけでなく、現実世界のエラーや予期しない状態、回復のしかたまで学習に含めている点です。UI操作のAIでいちばん困るのは「想定外で止まる」ことなので、ここは設計上かなり神経を使っていそうです。

Ferret-UI Liteの合成ナビゲーションデータ生成パイプライン図。人手注釈付き軌跡からUI要素検出を行い、Set-of-mark visual promptingを経て、オフライン合成データ(CoT推論・シーン記述・評価など)を生成。さらにGUIプラットフォーム上でマルチエージェント(Planning・Grounding・Task generator・Critic)が自動ラベリングを行い、VLMによる審査を通してオンライン合成データを作る流れを示している

Ferret-UI Liteの学習基盤。人手アノテーションとオフライン合成データ生成に加え、マルチエージェントによるオンライン収集を組み合わせることで、多段GUI操作に対応するナビゲーションデータを拡張・精緻化している

Ferret-UI LiteのマルチステップGUI操作デモ図。左にMobile・Desktop・Webなど多様なGUIプラットフォームとTap・Scroll・Typeなど統一アクション空間が示され、中央にユーザーの指示(ポスターを見つけてメール送信)に対してAgentがObserve→Think→Plan→Actを繰り返し、最終的にTerminateで完了する流れが描かれている

Ferret-UI Liteの自律操作イメージ。ユーザーの高レベル指示を受け取り、画面観察→思考→計画→実行のループを回しながら、タップや入力などの操作を段階的に行い、タスク完了まで到達する仕組みを示している

学習・評価データ:iPhoneだけで閉じないのが今回の特徴

従来のFerret-UI/2はiPhoneのスクリーンショットも使っていましたが、Ferret-UI Liteでは、Android/Web/デスクトップ環境のデータや、AndroidWorld/OSWorldといったベンチマークも利用しています。

Appleの研究なのに、学習の足場に他プラットフォームが入ってくるのは気になりますよね。ここは「どのOSでも共通する“GUIの読み方”」を鍛える狙いに加えて、OSWorldのような既存の評価基盤(テストベッド)を使うのが研究として現実的だった、という面もありそうです。

噛み砕くと、ゼロから評価環境を作るより、すでに“UI操作の試験場”として整っている場所で測ったほうが、研究として比較がしやすい、という話です。ここは地味ですが、論文の世界ではかなり大事な都合だったりします。

この流れで、AppleのAIが“端末内で完結する設計”へ寄っている背景が気になる人は、Apple AIサーバーとPCCの方向性も合わせて読むと、全体像がつながりやすいです。

良いところ:ローカル実行が“スクショを外に出さない”に直結する

Ferret-UI Liteが示すメリットは分かりやすくて、ローカル実行できるなら、画面情報(スクリーンショット相当)をクラウドへ送らずに済む可能性が出ます。

この「スクリーンショット相当」がポイントで、UIエージェント系のAIは、操作のたびに画面そのものを扱います。だから、どこで処理するか(端末内か、外部か)が、安心感に直結しやすいんですよね。

ただし、ここは誤認しやすいポイントで、研究として「端末内で動かせる」ことと、将来のApple製品でどんなプライバシー仕様として実装されるかは別物です。製品への搭載や仕様は未発表なので、現時点では「研究が示した方向性として、ローカル完結がメリットになり得る」という位置づけが安全です。

画面情報の扱いが怖い話は、スパイウェアの文脈とも重なります。気になる人は、iPhoneとスパイウェアPredatorの話も一度見ておくと、なぜ「外に出さない」が重要かが腹落ちしやすいです。

そのうえで、もし将来こうした仕組みが製品に入るなら、「どの情報が端末外へ出るのか/出ないのか」をAppleがどう線引きするかが、安心感を左右しそうです。

弱いところ:多段のやり取りは“大型ほど強くない”が前提

小型であることは強みですが、万能ではありません。ソース側でも、複雑なマルチステップの対話では大型モデルほどの強さが出にくい、とトレードオフとして書かれています。

ここは「途中で条件が増える」「例外が出る」「確認が挟まる」みたいな場面ほど、つらくなりやすい、という読み方をしておくとイメージしやすいです。

ここはユーザー体験の許容ラインが分かれそうです。1回で決まる操作なら気持ちいいけど、失敗して戻ってやり直す回数が増えると、便利さが一気に薄れるんですよね。

UIを読むAIの研究は、デザイン側のフィードバックで伸びる話とも相性がいいです。近い発想として、AppleのUI生成が「投票」から「添削」へ寄った話も、見ておく価値があります。

未確定な点:どこまで“製品の機能”になるか

今回の段階で線引きが必要なのは、「研究成果として示されたこと」と「消費者向けにいつ来るか」は別、という点です。ここを混ぜると事故りやすいので、未確定は未確定のまま置きます。

研究発表は「できる可能性を示した」段階で、製品は「日常で安全に使える形に落とし込む」段階なので、ここはゴールが違います。だからこそ、未確定を未確定のまま置くのがいちばん誠実だと思います。

  • 対応ハードウェア/対応モデル:未発表/不明
  • 提供開始日/価格:未発表/不明
  • 日本語対応/日本での提供:未発表/不明
  • OS要件(特定のOSバージョン):未発表/不明

ただ、判断の芯は作れます。もし「画面を触れるAI」が来たとしても、価値が出るのはあなたの端末内に残る情報を、どれだけ外へ出さずに済むかです。ここが担保されないなら、便利さより慎重さが勝ちやすいと思います。

注目したいポイント:3Bで勝てる範囲を“UI操作”に絞ったのが強い

「小が大を兼ねる」って、正直うさんくさく聞こえますよね。でも今回の主張は“全部で勝つ”ではなく、短いタスク/低レベルのGUIという勝負どころに絞って、工夫で取りにいっているのがポイントです。

ここは「何でもできるAIが来る」という話より、「日常の“ちょっと面倒”を狙い撃ちする方向に寄せた」と捉えると、期待の置き方がブレにくいです。

逆に言うと、ここでコケると体験は一気に崩れます。エラー回復まで学習に入れているとはいえ、ユーザーの意図と違う操作が起きたときに、誰がどう責任を取るのかは、製品化の段階で必ず問われます。

この話は「車内」みたいにUIが固定されやすい世界だと、話がさらに現実的になります。気になる人は、CarPlayとAIの組み合わせも合わせて読むと、適用先のイメージが掴みやすいです。

海外コミュニティの反応:期待は大きいが、怖さも残る

ここから先は推測です。こういう研究発表が出ると、海外の掲示板ではだいたい「軽さへの驚き」「Siri的な体験への期待」「ローカル完結の価値」「勝手に触る不安」が同時に出やすいです。

軽いのに強い、が一番の衝撃

短い操作や低レベルのタスクでここまで届くなら、巨大モデルに寄せなくても“触れるAI”は成立する、という受け止めが出やすいです。

「設定の奥」を代わりに探してほしい

体験として刺さるのは、難しい質問より「迷子になる画面」を救ってくれること。ここに期待が集まりやすいです。

ローカル完結の価値は大きい

スクリーンショット相当を外へ出さない設計なら、便利さと引き換えにしなくていいものが増える、という見方が強まりがちです。

他OSで鍛えるのは合理的

AndroidWorldのような環境で学習するのは、自社OSに閉じない汎用性を狙っているのでは、という推測が出やすいです。

となりの見方:期待が集まるほど、「勝手に触る怖さ」も同時に問われます。だからこそ、便利さの前にどこまでが端末内で完結するのかが、評価の分かれ目になりそうです。

ひとこと:Siriの未来より先に、“画面を触る精度”が必要なんですよね

個人的には、ここはすごく現実的な一歩だと思っています。会話が賢くなる前に、そもそもUIの中の小さなボタンや、状態が変わる画面を外さずに扱えないと、アシスタント体験は成立しづらいからです。とはいえ、操作が自動化されるほど、ミスの責任や取り消しの設計も重くなります。便利さに寄るほど、戻れる設計が必要になる。ここ、製品化の段階でどんな落としどころにするのか、いちばん見たいところです。

まとめ:Ferret-UI Liteは「端末内で画面を触る」ための現実解に寄った

Ferret-UI Liteは、3Bという小型サイズで、UI理解とグラウンディングを現実的に狙いにいった研究です。推理時クロッピングや合成データ生成の設計が、軽量でも精度を出すための肝になっています。

一方で、複雑なマルチステップでは大型モデルほど強くない、という線引きも同時にあります。もし製品機能として来るなら、「便利」と「怖い」の両方をどう設計で受け止めるかが、評価を決めそうです。

ではまた!

NIMASO 覗き見防止 iPhone12 / iPhone 12 Pro 用 ガラスフィルム 2枚セット

NIMASO 覗き見防止 iPhone12 / iPhone 12 Pro 用 ガラスフィルム 2枚セット

  • NIMASO

「画面を外に出さない」価値が刺さった人ほど、まずは日常の覗き見リスクを減らして、使い方の前提を整えるのがいちばん手堅いです。

Amazon

Source: 9to5Mac, IT之家