Google I/O 2025 - ReCap
- stephanwaltl
- vor 4 Tagen
- 6 Min. Lesezeit
Letzte Woche fand Shoreline Amphitheatre in Mountain View, Kalifornien, dem Hauptsitz von Alphabet die alljährliche Entwicklerkonferenz statt - bekannt seit 2008 unter dem Namen Google I/O.
Wenn man sich den Inhalt der Konferenz ansieht, dann sollte man den Namen von I/O besser in AI umtaufen, denn es gab de facto nur mehr ein einziges Thema: Künstliche Intelligenz!
Und es wird Zeit, denn Google hat den im Jahr 2022 losgefahrenen Zug schlichtweg verpasst und als OpenAIs ChatGPT schon die ersten 3 Bahnhöfe passiert hatte, war Google noch im heimischen Bad beim Zähneputzen.
Doch dann hat man seinen eigenen Zug namens GEMINI auf die Schienen gesetzt und seit einiger Zeit holt dieser Zug Meter um Meter auf. Im Gepäck ein ganzes Systemhaus an Anwendungen und Technologien. Denn Google ist eben mehr als "nur" die größte Suchmaschine der Welt, sondern kann Video (Youtube), Gmail, Google Maps/Earth, Google Drive, Forms, Kalender, Ads, Chrome, Android, Google Meet, Google TV oder Google Analytics um nur einige der bekanntesten zu nennen.
Und es ist höchstspannend, wie Google jetzt das volle Gewicht (und Geld) in die Beschleunigung des Zuges wirft. Viele der nunmehr vorgestellten Punkte sind Reaktionen auf Technologien die bereits von anderen gezeigt wurden (Beispiel Project Mariner als Reaktion auf den Operator von OpenAI oder AndroidXR als Basis für die neuen Google BRILLEN als Gegenstück zu den Brillen von Apple und META), Das dazugehörige Mixed-Reality-Headset nennt sich übrigens Project Moohan!
Jedoch sind auch ein paar Dinge dabei, die neu sind oder zumindest die Grenzen soweit nach oben schieben, dass im nächsten Schritt OpenAI, Microsoft und Anthropic wieder nachziehen müssen.
Fangen wir mit den "einfachen" Dingen an, die gezeigt wurden:
Zuerst einmal hat man gezeigt wie einfach es ist den KI-Assistenten GEMINI in Zukunft direkt in Google Chrome zu integrieren. Vergleichbar mit dem CoPiloten von Microsoft in deren Edge-Browser, scheint neben dem URL-Eingabefeld das GEMINI-Logo auf. Klickt man drauf, wird die aktuelle Webseite in Höchstgeschwindigkeit analysiert und man kann mit der Seite sowohl schriftlich als auch stimmlich interagieren.
GEMINI Live Camera & ScreenSharing - ok nix neues, denn der Voice Mode in ChatGPT ist hier bereits seit Monaten am Markt. Kleinigkeiten wie das Photo von einem Veranstaltungsplakat, dass dass sofort einen persönlichen Kalendereintrag macht und Einladungen versendet, sind nette Features und man hätte das ganze auch Google Lens 2 oder Lens AI nennen können. Denn Lens analysiert seit 2017 Fotos oder Live-Bilder mit Hilfe von Computer Vision und gleicht die erkannten Objekte mit Googles umfangreicher Datenbank ab. Sehr genial jedoch das neue Bildgenerierungsmodel für Mode, wobei man sich Klamotten aus dem Internet an Hand eines eigenen hochgeladenen Bildes an sich selbst anprobieren kann - inkl. einem Preisagenten der mich informiert, wenn es genau mein Produkt irgendwo billiger zu kaufen gibt; was natürlich dann dankenswerter Weise auch direkt von Gemini übernommen werden kann! Fragt ich mich nur an dieser Stelle - in welchem Shop wird schlussendlich GEMINI aktiv werden? Ein kapitalistischer Schelm wer hier an Google Merchant und ein Cost per Sale Model denkt!
DEEP Research ist bei OpenAI schon seit Monaten fixer Bestandteil und es war eher peinlich, dass Google hier nix geliefert hat. Aber das was man gezeigt hat und das was ich bisher selbst testen konnte, ist beeindruckend!
Selbiges gilt für die CANVAS-Funktion, wobei hier ein paar sehr geniale Funktionen unter anderem aus dem NotebookLM-Umfeld implementiert wurden. So kann man sich eine Webseite machen lassen (wie bei GAMMA), eine Infografik erstellen lassen, man erzeugt sich ein Audio-Overview in mehreren Sprachen oder bittet um eine WebApp! Was man halt so macht mit hochgeladenen Dokumenten.
Google MEET Auto Speech Translation - das automatische Übersetzen wird in Zukunft immer besser werden. Google hat das ganze auf der I/O nicht nur im eMeeting-Tool sondern auch im Einsatz der neuen stylischen Brillen gezeigt.
Google BEAM (3D Camera) - Sehr cool war die 3D Implementierung für Video Calls - die Hologramme aus der StarWars-Reihe sind nicht mehr weit entfernt!
Für Programmierer gab es dann noch JULES zum Beklatschen. Hierbei handelt es sich um einen asynchronen Entwicklungsagenten. Er übernimmt Aufgaben in der Softwareentwicklung – ähnlich wie ein Entwickler, aber automatisiert und rund um die Uhr verfügbar. Jules wird mit GITHUB verbunden und kann dann automatisiert Bugs beheben, kleine Features umsetzen, Engineering-Tasks übernehmen und Code direkt in ein GitHub-Repository exportieren. Das heißt, man muss als Entwickler nicht live mit ihm Jules interagieren, sonder das ganze läuft automatisiert im Hintergrund. Vor allem bei Routineaufgaben wie Code-Tests oder beim Bugfixing ist das ein wahrer Booster und das in Abwesenheit des Programmierers. Wer glaubt hier eine komplette Neuheit zu erleben, täuscht, denn OpenAI hat mit CODEX und CODEX CLI wenige Tage vor der JULES-Präsentation halt schon wieder vorgelegt und alleine das zeigt wie Google vom Vorreiter zum Hinterherläufer wurde!
Soweit so nett, doch die wahren Highlights sind meiner Ansicht nach aber diese:
Beginnen wir mit Project Mariner dem experimenteller KI-Agenten von Google DeepMind, der darauf ausgelegt ist, Aufgaben im Webbrowser für Nutzer eigenständig zu erledigen. Die Technologie wird in der PRO-Version aktuell als Chrome-Erweiterung getestet. So kann der Mariner Webseiten eigenständig durchsuchen, Links anklicken, scrollen, Formulare ausfüllen und Schaltflächen bedienen. Der Agent versteht und verarbeitet verschiedene Inhalte im Browser – darunter Text, Bilder, Code und Formulare – und kann diese in seinen Entscheidungsprozess einbeziehen. Wir als User geben Anweisungen im Chatfenster der Chrome-Sidebar ein, der Mariner zerlegt dann komplexe Aufgaben in Teilschritte und führt diese sichtbar im aktiven Tab aus, z. B. Online-Shopping, Tickets buchen oder Informationen recherchieren. Diese Art der Arbeit im Web ist die absolute Zukunft und daher ist es lächerlich, dass wir uns heute mit Barrierefreiheit im Netz beschäftigen, denn die CUAs wie eben der "Mariner" oder der "Operator" werden die Steuerung übernehmen. Für mich das Spannendste am Mariner ist jedoch, dass das System permanente an den gestellten Aufgaben "lernt" und diese dann jederzeit beschleunigt wiederholen kann ("teach and repeat")!
Ebenfalls noch in der Entwicklung befindet sich das Project Astra. Dabei handelt es sich um einen multimodalen KI-Assistenten, der Text, Ton, Bild, Video und Live-Kamera-Feeds in Echtzeit verarbeiten soll. Gezeigt wurde ein Mann in der Werkstatt, der sein Rad repariert und mit seinem Smartphone spricht. Das Smartphone gibt Anweisungen welche Schraube passt und wo im Raum diese Schraube dann auch liegt und sucht im Internet nach entsprechenden Werkstätten die Ersatzteile anbieten könnten. Die Tech-Enthusiasten jubeln, aber alleine schon die übertragene und sicherlich auch gespeicherte Datenmenge ist riesig, wenn ein KI-System meine Gespräche, Räume, Gesten und Gesichter ständig analysiert? Von den Auswirkungen auf unsere Privatsphäre und unsere eigenen kognitiven Fähigkeiten, möchte ich an der Stelle gar nicht sprechen.
Bleiben wir im experimentelle Umfeld. Denn noch nicht für jedermann:frau verfügbar, hat man dennoch Gemini Diffusion live vorgestellt. Gemini Diffusion ist ein neues Sprachmodell von Google DeepMind, das einen völlig neuen Ansatz für die Textgenerierung verfolgt. Im Gegensatz zu klassischen, autoregressiven Sprachmodellen (wie ChatGPT, Mistral oder Deepseek), die Text Wort für Wort bzw. Token für Token sequenziell erzeugen, arbeitet Google hier mit sogenannten Diffusionsmodellen. Dabei wird Text nicht schrittweise aufgebaut, sondern aus einem anfänglichen Rauschen in mehreren Iterationen verfeinert, ähnlich wie wir es bei modernen Bildgeneratoren wie aktuell in ChatGPT kennen. Dieses Verfahren erlaubt es dem Modell, Fehler im laufenden Prozess zu erkennen und noch während der Erzeugung zu beheben - vermutlich ein Quantensprung in Sachen Halluzination und damit Qualität der Ergebnisse! Das klingt dann schon sehr lässig und ich habe mir erlaubt, mich mal auf die Warteliste setzen zu lassen :-)
Nächstes Highlight ist der von Google als AGENT MODE bezeichnete personalisierter Deep Search Modus. Man weist als User Google in der bekannten Suchumgebung an eine tiefgreifende Recherche im Web zu tätigen. Das Ergebnis sind dann aber nicht nur Zusammenfassungen, sondern sogenannte Smart Replies, die genau so antworten, wie wir für gewöhnlich in anderen Google Apps agieren. Dazu werden GMAIL, GDRIVE Dokumente usw. analysiert und damit wird das Ergebnis auf Wunsch meinem Schreibstil angepasst.
Aktuell zeigt Google nach deren Gutdünken in den Suchergebnissen die AI Overviews. Diese scheinen mit 1.5 Milliarden Reaktionen pro Monat schon tief in die SERPS einzugreifen und wir sehen es bereits im Sinken der Zugriffe auf unsere Webseiten. Auch Google Lens Das scheint nicht zu reichen, denn Google verändert generell die uns altbekannten Suchergebnisse in die AI Mode-Darstellung. Im Gegensatz zur klassischen Google-Suche, die vorrangig eine Liste von Links anzeigt, wird der AI Mode in Zukunft direkt eine ausführliche, von KI generierte Antwort zurückgeben – ähnlich wie ein Chatbot. Nutzer können ihre Anfrage stellen, Folgefragen formulieren und erhalten jeweils kontextbezogene, tiefgehende Antworten, ergänzt durch weiterführende Links zu relevanten Webseiten. Das der Versuch die Antwortmaschine Perplexity zu kopieren.
Auch im Bereich Multimedia hat Google nachgelegt und bringt mit IMAGEN4, VEO3, FLOW und LYRA2 ein gewaltiges Bild-, ein bemerkenswertes Video- (mit voller Audio-Integration wie Stimme, Geräusche und Musik!) und ein grandioses Musik/Audio-KI-Tool in den Markt.
Ganz nebenbei wurde auch noch das Model Context Protocol (MCP) als ein von Anthropic entwickeltes Open-Source-Framework als Standard akzeptiert, womit in Zukunft die Integration und der Datenaustausch zwischen künstlicher Intelligenz (KI) – insbesondere großer Sprachmodellen (LLMs) – und externen Tools, Systemen sowie Datenquellen ermöglicht wird.

Google hat das Ganze als riesige Schritte auf dem Weg zum Agentic Web deklariert. In Wahrheit, hat Google aber noch einiges gegenüber der anderen KI-Systemen aufzuholen und hinkt in vielen Bereichen hinterher. Aber Google hat den Vorteil Unmengen an Daten in den unterschiedlichen Systemen und jede Menge Wissen über die einzelnen Nutzer zu haben. Das hilft beim LLM-Training und bei den Antworten!
Was noch nicht sichtbar ist, ist jene Strategie, wie man seitens Google in Zukunft Werbung einblenden möchte! Und das ist mehr als nur essentiell, denn ohne Werbung verliert Google seine wichtigste Einnahmequelle! Und ohne Geld - wissen wir - keine Musik!