Sora von OpenAI: Was kann der Video-Generator?

Die Entwicklung von Künstlicher Intelligenz schreitet rasant voran – und mit ihr die Möglichkeiten für visuelle Inhalte. OpenAI, bekannt durch Modelle wie ChatGPT oder DALL·E, hat mit Sora im letzten Jahr einen Video-Generator vorgestellt, der aus Texteingaben realistische Videosequenzen erzeugen kann. Die Technologie ist ein weiterer Meilenstein in der generativen KI und verspricht tiefgreifende Veränderungen für die Content-Produktion – insbesondere im Marketing und in der Medienbranche. Doch was kann Sora aktuell wirklich leisten? Was hat sich seit dem ersten Launch 2024 getan? Und wie funktioniert das Tool überhaupt?

Was ist Sora?

Sora ist ein KI-gestützter Video-Generator von OpenAI, der es Nutzer:innen erlaubt, durch einfache Texteingaben (Prompts) realistische Videos zu erstellen. Dabei interpretiert die KI die Beschreibung und setzt diese in bewegte Bilder um. Der erste öffentliche Einblick wurde im Februar 2024 gegeben – seitdem sorgt das Tool für Aufsehen und Diskussionen. Die zugrunde liegende Technologie basiert auf der Weiterentwicklung neuronaler Netze, die bereits in Modellen wie DALL·E (Text-to-Image) oder ChatGPT (Text-to-Text) zum Einsatz kommen.

Mit Sora OpenAI positioniert sich das Unternehmen als Vorreiter in der Verschmelzung von Sprachmodellen und visuellen Medien – eine Kombination, die besonders für Marketing und digitale Kommunikation revolutionäres Potenzial birgt.

Das Feedback auf Sora

Wie es bei vielen Neuerungen im Bereich der künstlichen Intelligenz der Fall ist, wurden nach dem Launch von Sora erst einmal viele negative Stimmen laut. Da die Videos so hyperrealistisch sind, fürchten Viele den Missbrauch der Technologie. Deep-Fakes sind bereits ein Begriff, doch diese konnten bis vor kurzem nicht von jedem und so einfach hergestellt werden. Dies wirft viele moralische Fragen auf. Um genau diese Bedenken zu klären, hatte OpenAI die Technologie zunächst nicht der breiten Masse zur Verfügung gestellt. Mittlerweile ist Sora für die Nutzer:innen von OpenAI frei zugänglich.

Neben den negativen Stimmen gibt es auch eine große Anzahl an Begeisterten. So wird Sora als ein Bauteil im Angebot von OpenAI gesehen. Der logische nächste Schritt der KI. Unter denen, die das Tool als erstes austesten konnten, wurde eine gemischte Stimmung laut. So seien die Möglichkeiten, die das Tool bietet, innovativ und einzigartig. Trotzdem gäbe es noch einige Schwachstellen: Physikalische Regeln werden missachtet oder der bereits angebissene Keks ist in der nächsten Szene immer noch ganz. Doch seitdem ist bereits über ein Jahr vergangen, weshalb wir uns im Folgenden die Entwicklung der Video KI genauer anschauen.

Wie funktioniert Sora?

Sora basiert auf einem Text-to-Video-Modell, das mit Milliarden von Parametern trainiert wurde. Die Funktionsweise ähnelt dabei bildgenerierenden KIs wie DALL·E, geht aber deutlich weiter: Anstatt ein einzelnes Bild zu erzeugen, generiert Sora eine Serie von Frames, die zu einem Video zusammengesetzt werden – und das mit flüssigen Übergängen, Perspektivwechseln und realistischen Bewegungen. Die KI startet dennoch zunächst mit einem Bild, das sie passend zum eingegebenen Prompt erstellt, und generiert daraus anschließend ein Video.

Zu den technologischen Highlights gehören:

Prompt-Verarbeitung: Die KI analysiert die Texteingabe und übersetzt sie in eine semantische Repräsentation.
Physikalisches Verständnis: Sora kann natürliche Bewegungen, Lichtverhalten und Objektinteraktionen realistischer simulieren als frühere Modelle.
Textbasierte Videobearbeitung: User können mittlerweile bestehende Videos mit Sprachbefehlen modifizieren – etwa durch das Ändern von Lichtstimmungen oder das Hinzufügen von Animationen.
Bild-zu-Video-Funktion: Aus einem hochgeladenen Bild kann ein kurzer, animierter Clip erstellt werden – z. B. für Produktpräsentationen im E-Commerce.
Erweiterte Video-Längen: Sora kann mittlerweile bis zu drei Minuten lange Clips generieren, was neue Anwendungen etwa im Storytelling eröffnet.

In unserem Test hat die Bildgenerierung auf den Prompt noch sehr gut funktioniert.

Im Video dann waren die Bewegungen doch noch sehr ruckartig und folgten teilweise keinen logischen Abläufen. Hier gibt es also durchaus noch Verbesserungsbedarf in der Bilderstellung der KI selbst, aber auch durch die Optimierung des Prompts.

Einheitlichkeit als das Schlüsselelement

Im Interview mit dem Wall Street Journal erklärt OpenAI, dass der Unterschied, der Soras Ergebnisse so realistisch aussehen lässt, der Fokus auf Einheitlichkeit ist. So müssen die verschiedenen Elemente im Blickfeld zwischen den einzelnen Bildern gleich bleiben, so dass der Übergang nahtlos erscheint. Dass dies aber auch jetzt noch nicht komplett umgesetzt wird, zeigen zahlreiche Beispielvideos Dritter. Autos im Hintergrund verändern willkürlich ihre Farbe, Prompts werden nicht vollständig umgesetzt oder die KI fügt selbstständig eigene Elemente hinzu.

Einschränkungen von Sora

Wie auch bei der Bildgeneration wird es bei der Videogenerierung einige Einschränkungen geben. Beispielsweise soll die KI keine Persönlichkeiten des öffentlichen Lebens in ihren Videos zeigen. Andere Einschränkungen gibt es bezüglich der Imitation von Künstler:innen, deren Werke in den letzten 100 Jahren entstanden sind. Ob Sora genau wie DALL-E einen Editor als Zusatz bekommt, mit dem man das bereits erzeugte Produkt nochmals verändern kann, ohne eine komplett neue Version zu erstellen, steht noch nicht fest.

Was kann Sora?

Die KI kann Videos nicht nur aus textbasierten Prompts erstellen. Es gibt viele Möglichkeiten, Filme zu editieren, zu erstellen oder zu verbinden:

Ähnlich wie die Einschränkungen basiert das System hinter Sora auch auf dem Bildgenerator DALL-E. Hier wurde bereits ChatGPT genutzt, um kurze Prompts auszubauen und die benötigten Details zu generieren. Wenn also die Eingabe der Nutzer:innen nicht genügend Informationen enthält, wird dieser Prompt durch den Chatbot verlängert und mit zusätzlichen Infos ausgestattet. Daraus ergeben sich dann natürlich auch Fehler im Endprodukt, da ChatGPT Dinge hinzufügt, die so im initialen Text nicht auffindbar sind.
Neben der Erstellung von Videos durch geschriebene Prompts kann Sora auch aus Fotos Videos generieren. So können beispielsweise mit DALL-E erstellte Bilder mit Sora in ein Bewegtbild verwandelt werden.
Bereits vorhandene Kurzfilme können mit Sora verlängert werden. Egal ob vor oder nach dem bestehenden Clip: Sora analysiert die Aufnahme und erweitert diese selbstständig. Außerdem kann der vorhandene Clip auch editiert werden. So kann beispielsweise die Umgebung oder Farbelemente verändert werden.
Wenn zwei Videos vorhanden sind, kann Sora diese nicht nur miteinander verbinden, sondern schafft auch einen Übergang, der Elemente beider Filme einbindet und so nahtlos von einem zum nächsten Video führt.
Ein Feature des Videogenerators, der die erstellten Videos realistischer wirken lässt, ist die Kameraführung. Dank der dynamischen Bewegung fühlt man sich in der Szene integriert. Menschen, Szenenelemente und die Umgebung bewegen sich in einem dreidimensionalen Raum und wirken dadurch echt.
Die digitale Welt kann von Sora auch imitiert werden. Hier ist bisher vor allem die Welt von Videospielen gemeint. Mit nur wenigen Worten kann die KI so beispielsweise den Spielverlauf in der Welt von Minecraft nachstellen.

In der Sora Galerie kannst Du Dir ansehen, was andere User:innen generiert haben.

Was ist neu seit dem Launch 2024?

Seit der ersten Präsentation im Februar 2024 hat OpenAI Sora massiv weiterentwickelt. Zu den wichtigsten Neuerungen zählen:

1. Längere Videosequenzen

Während im ersten Release nur Clips von maximal 60 Sekunden erzeugt werden konnten, sind inzwischen bis zu drei Minuten lange Videos möglich. Das eröffnet Spielräume für Storytelling, Werbung und Erklärvideos.

2. Verbessertes physikalisches Modell

Sora versteht physikalische Zusammenhänge nun deutlich besser – z. B. wie Schatten auf Gesichter fallen, wie Flüssigkeiten sich bewegen oder wie sich Objekte bei Kollisionen verhalten. Das Resultat: deutlich realistischere Szenen.

3. Textbasierte Videobearbeitung

Ein echtes Highlight ist die Möglichkeit, Videos per Spracheingabe zu bearbeiten. So kann man mit Befehlen wie „füge Nebel hinzu“ oder „ändere die Tageszeit zu Abend“ ein bereits generiertes Video anpassen.

4. Bild-zu-Video-Feature

Mit dieser neuen Funktion lassen sich aus Fotos animierte Szenen generieren. Ideal für Unternehmen, die aus statischen Produktbildern bewegte Inhalte machen wollen – etwa im Online-Shop oder auf Social Media.

5. Sicherheitsmechanismen

OpenAI hat neue Maßnahmen eingeführt, um Missbrauch zu verhindern. Alle generierten Inhalte enthalten unsichtbare Wasserzeichen, und bestimmte Inhalte – wie die realistische Darstellung bekannter Persönlichkeiten – sind eingeschränkt oder gesperrt.

Die Zukunft von Sora

Sora von OpenAI ist ein beeindruckender Schritt in der Evolution generativer KI – und das Jahr 2025 zeigt, wie rasant sich diese Technologie weiterentwickelt. Für die Content-Produktion im B2B-Marketing eröffnet Sora eine neue Dimension der visuellen Kommunikation. Noch steht die Technologie nicht allen zur Verfügung – aber der Einfluss auf die Branche ist schon jetzt spürbar. Wer sich heute mit Video-Marketing beschäftigt, sollte Sora OpenAI definitiv im Blick behalten.

Für Unternehmen kann diese Entwicklung jedoch auch eine einzigartige Chance sein. So könnten Imagefilme mit Sora für einen Bruchteil der Kosten produziert werden. Auch für Marketingmaßnahmen, beispielsweise auf LinkedIn, wo Videoformate immer wichtiger werden, kann die KI Hilfe leisten. Wer bereits auf der Suche nach guten Video-Strategien für das eigene Unternehmen ist, wird hier fündig. Agenturen, E-Commerce-Anbieter und Medienhäuser profitieren von der Möglichkeit, Inhalte schnell, kosteneffizient und kreativ zu produzieren. Auch im Bildungsbereich oder für Schulungen wird Sora zunehmend getestet – etwa um Lerninhalte in anschauliche Szenen zu verwandeln.