Was ist generative KI?
Was ist generative KI?
Du hast in den bisherigen Kursen gelernt, was KI ist und wie du sie im Alltag nutzt. Jetzt tauchen wir in eines der aufregendsten Teilgebiete ein: generative KI, also künstliche Intelligenz, die neue Inhalte erschafft. Texte, Bilder, Videos, Musik, Code, 3D-Modelle, generative KI kann all das produzieren, und die Qualität hat in den letzten Jahren ein Niveau erreicht, das noch vor kurzem undenkbar war.
Aber was genau bedeutet «generativ»? Und wie unterscheidet sich generative KI von anderen Formen der künstlichen Intelligenz? In dieser Lektion bekommst du den Überblick, den du brauchst, um die folgenden Lektionen dieses Kurses voll zu verstehen.
Generative vs. diskriminative Modelle
Um generative KI wirklich zu verstehen, hilft eine Abgrenzung. In der KI-Forschung unterscheidet man zwei grundlegende Modelltypen:
Analysieren und klassifizieren bestehende Daten. Sie beantworten die Frage: «Was ist das?»
Beispiele:
- Spam-Filter: Ist diese E-Mail Spam oder nicht?
- Bilderkennung: Ist auf dem Foto eine Katze oder ein Hund?
- Kreditprüfung: Ist dieser Antrag risikoreich?
- Medizinische Diagnostik: Zeigt der Scan eine Anomalie?
Diskriminative Modelle treffen Entscheidungen über vorhandene Daten, erzeugen aber keine neuen Inhalte.
Erzeugen neue Daten, die den Trainingsdaten ähneln. Sie beantworten die Frage: «Was könnte existieren?»
Beispiele:
- ChatGPT/Claude: Erzeugt neue Texte, die menschlich klingen
- DALL-E/Midjourney: Erzeugt neue Bilder aus Textbeschreibungen
- Sora: Erzeugt neue Videos aus Prompts
- Suno/Udio: Erzeugt neue Musikstücke
Generative Modelle lernen die Struktur und Muster der Trainingsdaten und können daraus etwas Neues erschaffen.
Welche Inhalte kann generative KI erzeugen?
Die Bandbreite generativer KI ist heute enorm. Hier sind die wichtigsten Content-Typen, die KI-Systeme 2026 erzeugen können:
Textgenerierung
Large Language Models (LLMs) wie GPT-4o, Claude, Gemini oder Llama erzeugen Texte aller Art: Artikel, E-Mails, Zusammenfassungen, Übersetzungen, kreatives Schreiben, Analysen. Die Qualität ist 2026 so hoch, dass KI-generierte Texte von menschlich geschriebenen oft nicht mehr zu unterscheiden sind.
Stand 2026: Texte bis zu mehreren tausend Wörtern in konsistenter Qualität, Unterstützung für über 100 Sprachen, kontextuelle Gedächtnisse über lange Konversationen hinweg.
Bildgenerierung
Modelle wie DALL-E 3, Midjourney v7, Stable Diffusion 3 und Flux erzeugen fotorealistische Bilder, Illustrationen, Kunst und Designs aus Textbeschreibungen. Von Produktfotos bis zu künstlerischen Gemälden, die Qualität übertrifft mittlerweile viele professionelle Stock-Fotos.
Stand 2026: Photorealismus auf professionellem Niveau, konsistente Charaktere, zuverlässige Textdarstellung in Bildern, Auflösungen bis 4K+.
Videogenerierung
Text-to-Video-Modelle wie Sora, Runway Gen-3, Kling und Pika können kurze Videoclips aus Textbeschreibungen erzeugen. Die Entwicklung ist rasant: Noch 2023 waren die Ergebnisse kaum brauchbar, 2026 sind sie für viele Anwendungsfälle produktionsreif.
Stand 2026: Clips bis zu 60 Sekunden in HD, verbesserte physikalische Konsistenz, grundlegende Kamerasteuerung, erste Fortschritte bei längeren Narrativen.
Audio- und Musikgenerierung
KI kann Sprache, Musik und Soundeffekte erzeugen. Text-to-Speech (TTS) Modelle wie ElevenLabs produzieren natürlich klingende Stimmen. Musikgeneratoren wie Suno und Udio erstellen komplette Songs mit Gesang in verschiedenen Genres.
Stand 2026: Kaum von echten Stimmen unterscheidbare TTS, personalisierte Stimmenklone, komplette Songs mit Arrangements und Gesang in Studioqualität.
Codegenerierung
KI-Assistenten wie GitHub Copilot, Claude Code und Cursor schreiben funktionsfähigen Code in Dutzenden Programmiersprachen. Sie können ganze Funktionen, Tests, Dokumentation und sogar komplette kleine Applikationen generieren.
Stand 2026: Zuverlässige Generierung von Funktionen und Klassen, kontextbewusste Vorschläge, automatisierte Fehlerbehebung, agentenbasierte Entwicklung ganzer Features.
3D-Generierung
Neuere Modelle können aus Text oder Bildern 3D-Objekte und -Szenen generieren. Für Spieleentwicklung, Architektur und Produktdesign ein Game-Changer. Beispiele: Meshy, Tripo, Luma AI.
Stand 2026: Brauchbare 3D-Modelle aus einzelnen Bildern oder Textbeschreibungen, automatische Texturierung, erste Fortschritte bei animierten 3D-Charakteren.
Wie funktioniert Generierung? (vereinfacht)
Ohne zu tief in die Mathematik einzusteigen: Generative Modelle lernen während des Trainings die statistische Struktur ihrer Trainingsdaten. Sie bauen ein internes Modell auf – einen sogenannten Latent Space (latenten Raum) –, der die wesentlichen Merkmale und Beziehungen der Daten komprimiert abbildet.
Wenn du dann einen Prompt eingibst, navigiert das Modell durch diesen latenten Raum und sampelt (wählt) neue Datenpunkte aus, die zu deiner Anfrage passen. Bei Sprachmodellen bedeutet das: Token für Token wird das nächste wahrscheinlichste Wort gewählt. Bei Bildmodellen wird aus Rauschen schrittweise ein Bild konstruiert. Das Ergebnis ist jedes Mal etwas anders, deshalb bekommst du bei gleichen Prompts unterschiedliche Resultate.
Meilensteine der generativen KI
Die Entwicklung verlief exponentiell schnell. Hier die wichtigsten Meilensteine:
- 2020 – GPT-3: OpenAI veröffentlicht GPT-3 mit 175 Milliarden Parametern. Erstmals können Maschinen zusammenhängende, überzeugende Texte generieren. Die Welt staunt, aber der Zugang ist limitiert.
- 2021 – DALL-E & Codex: KI generiert erstmals brauchbare Bilder aus Text. Codex (Basis für GitHub Copilot) zeigt, dass KI auch programmieren kann.
- 2022 – Das Durchbruchsjahr: Stable Diffusion macht Bildgenerierung Open-Source. Midjourney liefert kunstvolle Bilder. DALL-E 2 wird öffentlich. Und im November 2022 erscheint ChatGPT und verändert alles. 100 Millionen Nutzer in 2 Monaten.
- 2023 – GPT-4 & Multimodalität: GPT-4 zeigt massiv verbesserte Fähigkeiten. Claude 2 und Gemini treten an. Modelle werden multimodal (Text + Bild).
- 2024 – Video & Audio: Sora wird angekündigt, Musikgeneratoren wie Suno werden populär. Open-Source-Modelle (Llama, Mixtral) schliessen zur Spitze auf.
- 2025–2026 – Agenten & Integration: KI-Agenten können eigenständig mehrstufige Aufgaben erledigen. Generative KI wird in Betriebssysteme, Office-Suiten und Branchen-Software integriert. Der Markt für generative KI übersteigt 100 Milliarden USD.
Wirtschaftliche Bedeutung
Generative KI ist kein Spielzeug, sie verändert ganze Branchen. McKinsey schätzt den wirtschaftlichen Mehrwert generativer KI auf 2,6 bis 4,4 Billionen USD pro Jahr. Besonders betroffen: Marketing und Kreativwirtschaft, Softwareentwicklung, Kundenservice, Bildung, Gesundheitswesen und Rechtsberatung. Unternehmen, die generative KI früh und klug einsetzen, verschaffen sich einen messbaren Wettbewerbsvorteil.
- Generative KI erzeugt neue, originale Inhalte: Texte, Bilder, Videos, Audio, Code und 3D-Modelle.
- Im Gegensatz zu diskriminativen Modellen (die Daten klassifizieren) erschaffen generative Modelle etwas Neues aus gelernten Mustern.
- Die Generierung funktioniert über einen latenten Raum, in dem das Modell neue Datenpunkte sampelt, die zu deinem Prompt passen.
- Die Entwicklung verlief explosionsartig: von GPT-3 (2020) über ChatGPT (2022) bis zu KI-Agenten und Integration in Alltagssoftware (2026).
- Der wirtschaftliche Einfluss ist enorm: Generative KI verändert Branchen wie Marketing, Software, Bildung und Gesundheitswesen grundlegend.