Apple stellt Ferret-v2 vor: Durchbruch-KI definiert plattformübergreifende UI-Interaktion und Barrierefreiheit neu

Apple stellt Ferret-v2 vor: Durchbruch-KI definiert plattformübergreifende UI-Interaktion und Barrierefreiheit neu

Von
Jane Park
3 Minuten Lesezeit

Was ist passiert?

Apple hat Ferret-v2 vorgestellt, eine verbesserte Version seines vorherigen Modells Ferret, das speziell entwickelt wurde, um die Interpretation von Benutzeroberflächen (UI) über mehrere Plattformen zu verbessern. Ferret-v2 bringt drei wesentliche Innovationen mit sich, die darauf abzielen, die Interaktion zwischen Geräten zu verbessern und neue Möglichkeiten für mobile und Web-Oberflächen zu schaffen. Diese Innovationen sind hochauflösende Verankerung für eine schärfere visuelle Auffassung, Multi-Granularität-Codierung für ein reichhaltigeres Verständnis des Kontexts und ein neuartiges dreistufiges Trainingsparadigma, das sich auf die dichte Ausrichtung von hochauflösenden Bildern konzentriert. Die Fortschritte setzen Ferret-v2 an die Spitze der multimodalen großen Sprachmodelle (MLLMs) und übertreffen bestehende Konkurrenten in verschiedenen Leistungskennzahlen.

Das Modell, das in Apples Ecosystem integriert ist, bietet bahnbrechende Verbesserungen, einschließlich der Fähigkeit, über Geräte wie iPhones, iPads, Android-Plattformen, Webbrowser und sogar Apple TV zu arbeiten. Die hohen Leistungswerte von Ferret-v2, insbesondere bei der Erkennung von UI-Elementen, betonen Apples Engagement für adaptive KI in der Verbrauchertechnologie. Daher hofft Apple, die Grenzen der Benutzerinteraktion und Zugänglichkeit zu erweitern und macht Ferret-v2 zu einem wichtigen Bestandteil der nächsten Generation intelligenter, multimodaler Anwendungen.

Wichtige Erkenntnisse

  1. Verbesserte visuelle Verarbeitung: Ferret-v2s Fähigkeit zur “Verankerung in jeder Auflösung” ermöglicht es dem Modell, hochauflösende Bilder im Detail zu interpretieren, was es vielseitiger für die Handhabung von UI-Elementen auf verschiedenen Bildschirmtypen macht.

  2. Multi-Granularität-Codierung: Die Integration von DINOv2, einem leistungsstarken Encoder, erlaubt es Ferret-v2, sowohl globale als auch detaillierte visuelle Informationen zu verarbeiten und somit das Verständnis der Benutzerabsicht zu bereichern.

  3. Plattformübergreifende Nutzbarkeit: Mit beeindruckenden Erkennungswerten für UI zeigte Ferret-v2 eine Genauigkeit von 68 % auf iPads und 71 % auf Android-Geräten und etablierte sich so als führendes Modell in der plattformübergreifenden UI-Interaktion.

  4. Potenzial für Siri-Integration: Apples CAMPHOR-Framework könnte die fortgeschrittenen Fähigkeiten von Ferret-UI mit Siri verbinden, sodass der virtuelle Assistent komplexe Aufgaben erledigen und Apps durch Sprachbefehle navigieren kann.

Tiefe Analyse

Ferret-v2 ist mehr als ein inkrementelles Update – es stellt einen großen Fortschritt in Apples Bestrebungen dar, eine robuste KI zu schaffen, die detaillierte UI-Interaktionen steuern kann. Die dreifachen Verbesserungen in Verankerung, Codierung und Training bringen ein neues Maß an Präzision dafür, wie das Modell visuelle Hinweise versteht und darauf reagiert, insbesondere auf mobilen Oberflächen.

Einer der bedeutendsten Upgrades ist die visuelle Codierung mit Multi-Granularität, die durch DINOv2 ermöglicht wird. Dieser Encoder erlaubt es Ferret-v2, sowohl feine als auch breite Aspekte eines Bildes zu erfassen, sodass das Modell in der Lage ist, verschiedene UI-Elemente wie Symbole, Textfelder und Menüs klarer zu unterscheiden. Diese Fähigkeit, komplexe UI-Layouts zu verarbeiten, hat es Ferret-v2 ermöglicht, Wettbewerber wie GPT-4V in der Erkennung von UI-Elementen zu übertreffen und in verwandten Tests eine bemerkenswerte Punktzahl von 89,73 zu erreichen.

Das Modell zeigt auch die Stärke einer adaptiven Architektur für plattformübergreifende Nutzbarkeit. Das Design priorisiert das Verständnis der Benutzerabsicht und ermöglicht es, räumliche Beziehungen zwischen UI-Elementen zu interpretieren und zu verarbeiten, anstatt sich auf statische Klickkoordinaten zu verlassen. Dies markiert einen bedeutenden Wandel in Apples Ansatz, da es Ferret-v2 ermöglicht, Apps auf einer Vielzahl von Geräten zu bedienen, von Mobiltelefonen bis hin zu Webbrowsern und Apple TV. Der Übergang zwischen mobilen Geräten und größeren Bildschirmplattformen wie Fernsehern und Web-Oberflächen stellte jedoch kleinere Herausforderungen dar, aufgrund von Unterschieden im Bildschirmlayout, was Verbesserungsbedarf zeigt.

Wussten Sie schon?

  • Branchenkontext: Apples Veröffentlichung von Ferret-v2 versetzt es in direkte Konkurrenz zu Microsofts OmniParser und Anthropics Claude 3.5 Sonnet, die beide ähnliche plattformübergreifende UI-Interaktionen anstreben. Allerdings könnte Ferret-v2s kontextgesteuerter Ansatz, unterstützt von fortschrittlichen Encodern und hochauflösender Verarbeitung, einen signifikanten Vorteil bieten.

  • Siris potenzielle Evolution: Die Integration von Ferret-UI-Fähigkeiten mit Apples CAMPHOR-Framework deutet darauf hin, dass Siri bald komplexere Aufgaben erledigen könnte, wie zum Beispiel die Koordination mit spezialisierten KI-Agenten und die autonome Navigation in Apps oder auf Webseiten mit natürlicher Sprache.

  • Über die Zugänglichkeit hinaus: Ferret-v2s detailliertes räumliches Bewusstsein hat potenzielle Anwendungen für die Zugänglichkeit. Seine Fähigkeiten zur Bildschirmzusammenfassung, die ursprünglich zur Hilfe für sehbehinderte Menschen gedacht waren, könnten bald nützlich sein, um eine vollständig anpassbare, sprachgesteuerte Technologiewelt zu schaffen, und somit die Benutzerinteraktionen innerhalb von Apples Ecosystem weiter zu transformieren.

Während Apple weiterhin die Fähigkeiten von Ferret-v2 verfeinert, signalisiert das Potenzial, die Benutzerinteraktionen zu revolutionieren – von nahtloser Navigation bis hin zu hohem Automatisierungsgrad – eine vielversprechende Zukunft für die plattformübergreifende UI-Integration.

Das könnte Ihnen auch gefallen

Dieser Artikel wurde von unserem Benutzer gemäß den Regeln und Richtlinien für die Einreichung von Nachrichten. Das Titelbild ist computererzeugte Kunst nur zu illustrativen Zwecken; nicht indikativ für den tatsächlichen Inhalt. Wenn Sie glauben, dass dieser Artikel gegen Urheberrechte verstößt, zögern Sie bitte nicht, dies zu melden, indem Sie uns eine E-Mail senden. Ihre Wachsamkeit und Zusammenarbeit sind unschätzbar, um eine respektvolle und rechtlich konforme Community aufrechtzuerhalten.

Abonnieren Sie unseren Newsletter

Erhalten Sie das Neueste aus dem Unternehmensgeschäft und der Technologie mit exklusiven Einblicken in unsere neuen Angebote