Open Source schlägt zurück: Gemini 3, DeepSeek 3.2 und die unterschätzte Macht kleinerer Modelle
Hast du in den letzten Wochen deinen LinkedIn- oder X-Feed geöffnet, dann weißt du: Die KI setzt gerade zum nächsten Sprint an. Google hat mit Gemini 3 ein Modell vorgestellt, das in vielen Benchmarks vorne liegt. Noch bevor man sich fragen konnte, was das für den Markt bedeutet, kam bereits die nächste Überraschung. DeepSeek veröffentlichte am 1. Dezember die Version V3.2 seines Modells und rüttelte erneut am Kräfteverhältnis. Das erinnerte mich an den Dezember 2024, als DeepSeek plötzlich auftauchte und für viel Aufruhr sorgte. Und während die großen Player versuchen, die Benchmark-Krone zu verteidigen, hat Mistral AI in Europa die Modellfamilie Mistral 3 vorgestellt. Dazu gehören auch die kleineren Varianten, die auf normaler Hardware laufen.
In dieser Geschwindigkeit passiert im KI-Bereich selten etwas. Zeit also für eine Einordnung. Und für eine Frage, die Unternehmen viel stärker betrifft als jeder Benchmark: Welche Modelle kann ich selbst einsetzen, und wie viel Kontrolle habe ich dabei?
Was heißt eigentlich offen? Open Source, Open Weight und was es sonst noch gibt
„Viele sagen »Open Source«, meinen aber etwas anderes. Deshalb hier die schnelle Orientierung.“
Infografik erstellt mit NotebookLM
Open Source bedeutet im klassischen Sinn: Alles ist offen. Code, Trainingsmethoden, Lizenzen, oft sogar Datensätze. Das gibt es im KI-Bereich allerdings nur sehr selten, weil Trainingsdaten rechtlich heikel sind und Trainingspipelines Betriebsgeheimnisse sind.
Open Weight ist die Variante, die heute fast alle meinen. Die Gewichte des Modells sind frei verfügbar. Man kann sie herunterladen, selbst betreiben, quantisieren oder finetunen. Die Trainingsdaten und der gesamte Prozess bleiben aber meist geschlossen.
Closed Models sind das Gegenteil davon. Modelle wie GPT-5 oder Gemini 3 betreibt man ausschließlich über APIs. Sie leisten sehr viel, aber man hat keine Kontrolle über Datenflüsse, Kosten und die technische Umsetzung.
Open Interface ist die leichteste Form von Offenheit. Hier stellt ein Anbieter zwar Modelle bereit, aber nur über eine frei nutzbare API oder ein standardisiertes Tooling. Meta und Mistral nutzen solche Ansätze teilweise ergänzend.
Kurz gesagt. Open Source bedeutet völlige Transparenz. Open Weight bedeutet Kontrolle über die Nutzung. Closed bedeutet maximale Leistung bei minimaler Transparenz. Und irgendwo dazwischen entwickelt sich gerade ein lebendiges Ökosystem, das für Unternehmen plötzlich hochinteressant wird.
DeepSeek V3.2: Der Außenseiter (?)
DeepSeek ist nicht nur wegen seiner Offenheit spannend, sondern wegen seiner Leistungsdaten. In den Benchmarks schlägt sich V3.2 erstaunlich gut und positioniert sich klar als das Modell mit dem besten Preis-Leistungs-Verhältnis.
Ein kurzer Blick auf die wichtigsten Kategorien zeigt, wo das Modell glänzt und wo nicht.
Sprache und Wissen
Gemini 3 dominiert hier mit deutlichem Abstand. GPT-5 folgt dicht dahinter. DeepSeek V3.2 liegt in der Mitte des Feldes. Es ist stark in allgemeinem Wissen, gut im Alltagseinsatz, aber kein akademischer Überflieger. Für klassische Unternehmensanwendungen wie Q&A, Dokumentenanalysen oder Zusammenfassungen mehr als ausreichend.
Coding
Hier wird es interessant. DeepSeek V3.2 spielt fast auf GPT-5-Niveau. Viele Benchmarks zeigen, dass das Modell beim Schreiben von Code, bei Bugfixes und beim Erklären von Algorithmen erstaunlich stabil ist. In Codeforces-ähnlichen Aufgaben liegt es teilweise deutlich vor Claude 4.5. Für Unternehmen, die Entwickler unterstützen möchten, ist das enorm relevant.
Mathematik
Auch hier glänzt DeepSeek. Auf AIME und HMMT liegt es knapp hinter Gemini und ungefähr auf dem Niveau von GPT-5. Für Bildungsanwendungen und algorithmische Aufgaben ist das beeindruckend.
Tool und Agenten-Workflows
Hier liegen die Schwächen. In Benchmarks, die Tool-Nutzung, Browsing, SWE-Agenten oder Terminal-Automatisierung testen, fällt DeepSeek klar zurück. GPT-5 und Claude 4.5 dominieren diese Bereiche. DeepSeek ist also kein idealer Kandidat, wenn du autonome Agenten bauen möchtest, die komplexe Abläufe mit mehreren Tools steuern.
Das Gesamtbild. DeepSeek V3.2 ist ein hervorragendes Modell für Coding, Mathematik und klassische Denkaufgaben. Es ist kein Forschungsmodell wie Gemini und kein Agentenspezialist wie Claude, aber für viele reale Workloads stellt es eine extrem interessante Wahl dar.
Mistral 3: Europas Antwort auf die geschlossene KI-Welt
Mistral AI hat Anfang Dezember die Mistral-3-Reihe vorgestellt. Insgesamt zehn Modelle, lizenzfreundlich, performant und mit Varianten, die auf normaler Hardware laufen. Besonders spannend sind die kleinen Modelle, oft »Ministral« genannt. Diese schaffen eine gute Balance aus Geschwindigkeit, Effizienz und Inferenzqualität. Für alle, die lokale KI-Lösungen aufbauen möchten, ist das ein wichtiger Schritt.
Im Gegensatz zu vielen Wettbewerbern setzt Mistral weiterhin auf offene Lizenzen und technische Effizienz. Die Modelle sind nicht nur stark, sondern auch wirtschaftlich sinnvoll einsetzbar. Genau das macht sie so relevant für KMU und Entwickler, die weniger an Benchmark-Siegen interessiert sind und mehr an Kontrolle und Kosten.
Welche Modelle laufen wirklich auf einem normalen Laptop?
Ich habe mehrere Modelle auf meinem privaten MacBook getestet. Nichts Besonderes, 16 GB RAM, LM Studio als Oberfläche. Hier meine Ergebnisse.
Mistral 3 3B (2,99GB Größe)
Eine kompakte Allzweckwaffe, die für viele normale Anfragen ausreichen dürfte. Bei mir zügig mit knapp 39 Token / Sekunde und ohne Fehler.
Mistral 3 3B Output in LM Studio
Qwen3 4B Instruct (2,28GB)
Bei meiner E-Mail-Aufgabe etwas kürzer angebunden als Mistral, aber dennoch eine zufriedenstellende Antwort. Ähnlich schnell mit 39 Token / Sekunde. Eigentlich punktet dieses Modell aber bei (kürzeren) Programmieraufgaben.
Qwen3 4B Output in LM Studio
DeepSeek Modelle (V3 Umsetzungen und quantisierte Varianten)
Ich konnte noch keine Version finden, die klein genug für meinen Rechner ist (30 Milliarden Parameter passen gerade so nicht), sondern nur die Version R1 von vor einem halben Jahr. Diese ist nicht auf dem gleichen Stand wie Mistral oder Qwen (s.o.)
Was diese Modelle gemeinsam haben. Sie machen KI lokal verfügbar. Ohne Cloud, ohne API-Kosten, ohne Abhängigkeit. Für viele Unternehmen ist genau das ein Gamechanger.
Was lernen wir aus diesem Dezember?
Die großen Modelle liefern beeindruckende Benchmarks. Aber während Google, OpenAI und xAI um die Spitzenplätze kämpfen, passiert an anderer Stelle etwas Entscheidenderes. KI wird wieder zugänglich. Mistral und DeepSeek setzen auf offene Gewichte. Meta zieht mit Llama nach. Lokale Inferenz wird realistisch, selbst auf Consumer-Hardware.
Gemini 3 bleibt das Maß der Dinge, was akademische Intelligenz angeht. GPT-5.1 ist die sichere Allzweckwaffe. Claude überzeugt durch Stabilität in Agenten-Workflows. Und DeepSeek zeigt, wie viel Leistung man für wenig Geld bekommen kann.
Je nach Anwendungsfall kann das kleinste Modell plötzlich das beste Werkzeug sein.
Fazit und Empfehlung
Meine Empfehlung für diese Woche:
Nimm Gemini 3, wenn du komplexe Denkaufgaben oder Forschungsthemen bearbeiten musst.
Nimm GPT-5, wenn du ein zuverlässiges rundum-Sorglos-Modell brauchst.
Nimm Claude 4.5, wenn du Agenten baust oder lange Tool-Prozesse automatisieren möchtest.
Nimm DeepSeek V3.2, wenn du Coding, Mathematik oder klassische Denkaufgaben günstig und zuverlässig lösen willst.
Und schau dir Mistral 3 oder Qwen an, wenn du endlich ein Modell suchst, das auf deinem Laptop läuft.
Wenn dich solche Deep Dives interessieren. Jeden Freitag teile ich meine Highlights, kuratiert, konkret und ohne Buzzword-Overload. Hier kannst du meinen Newsletter abonnieren.