OpenAI erweitert ChatGPT mit visuellem Advanced Voice Mode - Einführung mit Hindernissen
OpenAI hat mit der neuesten Erweiterung von ChatGPT einen spannenden Meilenstein erreicht: Der Advanced Voice Mode, bekannt für seine menschenähnlichen Konversationsfähigkeiten, erhält nun eine visuelle Komponente. Abonnenten von ChatGPT Plus, Team oder Pro können jetzt mit der App Objekte mit ihrer Handykamera erfassen, worauf ChatGPT in nahezu Echtzeit reagiert.
Das Feature geht über die Erkennung von physischen Objekten hinaus und versteht auch das, was auf einem Display angezeigt wird, zum Beispiel kann es Menüeinstellungen erklären oder mathematische Probleme kommentieren. Um den Advanced Voice Mode mit Vision zu nutzen, genügt ein Klick auf das Mikrofonsymbol neben der Chat-Leiste und anschließend auf das Videosymbol links unten.
Zum Teilen des Bildschirms wird über das Drei-Punkte-Menü „Bildschirm teilen“ ausgewählt. Die globale Einführung des Advanced Voice Modes mit Vision startete am Donnerstag und soll innerhalb einer Woche abgeschlossen sein. Allerdings erhalten nicht alle Nutzer Zugang. Speziell ChatGPT Enterprise- und Edu-Kunden müssen sich bis Januar gedulden, und in der EU sowie in weiteren europäischen Ländern ist derzeit noch kein Zeitplan bekannt.
Vor Kurzem zeigte OpenAI-Präsident Greg Brockman in der Sendung "60 Minutes" von CNN eine eindrucksvolle Demo. Er testete Anderson Coopers Anatomiekenntnisse, während Cooper Körperteile an ein Whiteboard skizzierte. ChatGPT konnte erkennen, was gezeichnet wurde – nicht ohne jedoch bei einer Geometrieaufgabe einen Fehler zu machen, was auf mögliche Schwächen bei komplexeren Aufgaben hinweist.
Die Funktion wurde bereits mehrfach verschoben, da OpenAI die Ankündigung des visuellen Advanced Voice Modes zu einem Zeitpunkt machte, als die Entwicklung noch nicht abgeschlossen war. Versprechen für eine frühere Einführung konnten nicht eingehalten werden, wodurch die Erwartungshaltung der Nutzer überspannt wurde.
Während OpenAI vor der Einführung der visuellen Funktion stand, konzentrierte man sich darauf, den rein stimmlichen Advanced Voice Mode auf zusätzliche Plattformen und für Nutzer in der EU zu erweitern. Interessanterweise arbeiten auch Konkurrenten wie Google und Meta an ähnlichen Technologien. Google hat in dieser Woche sein eigenes Projekt für videoanalysierende, KI-gestützte Gespräche, Projekt Astra, für eine ausgewählte Gruppe von Android-Testern verfügbar gemacht.