OpenAI stellt GPT-4o Bildgenerierung vor
- stephanwaltl
- 27. März
- 2 Min. Lesezeit
Bis jetzt war aus dem Hause OpenAI der KI Bild Generator Dall-E das Maß der Dinge und im Vergleich zu Midjourney oder FLUX1 eher das Dasein einer Stiefmutter. Sogar Google, welches in der gesellschaftlichen Wahrnehmung in Sachen KI immer noch mit dem "Geht so"-Pickerl beklebt ist, hat mit dem AISTUDIO ein paar aussergewöhnliche Möglichkeiten in Sachen Medien eingeführt.
Doch jetzt hat man seitens OpenAI massiv nachgelegt und GPT‑4o kann seit gestern nativ Bilder erzeugen – direkt im Chat!
Die Bildgenerierung ist fotorealistisch, textgenau und kontextsensibel.
Bilder können mehrere Objekte, präzise Texte, komplexe Szenen enthalten.
Funktioniert auch mit hochdetaillierten Prompts, z. B. Menükarten, Comics, Infografiken.
Das beste an der Sache ist aber, dass die Bilder iterativ ("Multi-Turn-Design) angepasst werden können - und hier hängen der Großteil der anderen Systeme (noch) nach!
Beispiel:
Erstelle ein realistisches Photo von einem männlichen Gorilla Regenwald!
Wechsle die Farbe seines Fells in die Farbe eines Kückens!
Tausche den Hintergrund und zeige im Hintergrund die Skyline von Dubai!
ChatGPT erkennt also das Bild und man tauscht die Elemente nach Belieben! Das geht aber eben nicht nur für mit ChatGPT erstellte Bilder, sondern auch mit Bildern die wir hochgeladen haben ("Upload & Restyle"). Ein Quantensprung, wenn man die teuren Photoshops und Fireflys aus dem Hause Adobe mal ausblendet!
Auch Wörter und Symbole werden akkurat integriert und wenn notwendig kann man den Fokus auch auf Nutzwert statt reiner Ästhetik setzen. Damit bekommt man infografikfähige und erklärende Bilder!
Beispiele:
Menükarten im traditionellen Stil mit Illustrationen.
Comics
Poster
Diagramme
UI-Konzepte
Vintage-Fotografie, u.v.m.
OpenAI zeigt auf seiner NEWS-Seite ein paar richtig kreative Beispiele für Logos, transparente Zeichnungen. Ich selbst habe auch ein bissi was probiert und wenn man wie ich kein guter Zeichner ist, dann sind die Ergebnisse und die Geschwindigkeit der Umsetzung schier unglaublich!
Natürlich gibt es noch Grenzen:
Cropping-Probleme bei längeren Bildern (z. B. Poster).
Falschinformationen bei geringer Kontextdichte (Halluzinationen).
Limitierte Präzision bei kleinen Texten, Graphen oder bei Gesichts-Edits.
Mehrsprachigkeit (nicht-lateinische Schriften) noch ausbaufähig.
Jedoch setzt man seitens OpenAI auf Sicherheit & Transparenz! So werden alle Bilder mit C2PA-Metadaten gekennzeichnet. Die Inhaltsrichtlinien sollen Missbrauch (z. B. Deepfakes, Gewalt) weitestgehend automatisch blockieren und eine interne Suche prüft, ob ein Bild von GPT stammt oder eben nicht. 4o-Image-Kreation ist weltweit für Plus, Pro, Team und Free User (!!) verfügbar, wobei es hier natürlich je nach Account Einschränkungen bei der Menge an Bildern gibt, die man entwickeln kann. Übrigens DALL·E bleibt parallel verfügbar - aber ich weiß nicht wirklich wozu?
Comentarios