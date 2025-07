KI-Modelle werden immer ausgefeilter und bieten mittlerweile viele Möglichkeiten, um Aufgaben rund um Texte, Videos und mehr erledigen zu können. Doch welche KI erledigt die ihnen aufgetragenen Aufgaben eigentlich am besten? Das wollte auch der YouTuber Mrwhosetheboss herausfinden und testete insgesamt vier KI-Modelle verschiedener Anbieter. Er bewertete die Leistung dieser in unterschiedlichen Aufgabenbereichen und brachte die künstlichen Intelligenzen auch mit komplexeren Fragestellungen ins Schwitzen.

Für das große KI-Duell entschied sich Mrwhosetheboss für die vier KIs Grok von xAI in Version 3, Google Gemini in Version 2.5 Pro, ChatGPT mit GPT-4o sowie Perplexity Sonar Pro. Zum Start beschäftigte der YouTuber die vier KI-Modelle damit, reale Probleme zu lösen, indem er ihnen die Frage stellte, „Ich fahre einen Honda Civic mit Baujahr 2017. Wie viele Aerolite 29″-Hartschalenkoffer passen in meinen Kofferraum?“

Bei der ersten Aufgabe tat sich Grok mit einer schnellen und korrekten Antwort „Zwei“ hervor. Sowohl Gemini als auch ChatGPT gaben an, dass theoretisch drei Koffer in den Kofferraum passen würden, praktisch allerdings nur zwei. Perplexity konnte mit einer theoretischen Volumenberechnung des Kofferraums, die von formlosen Objekten ausgeht, nicht punkten, und kam daher auf „Drei bis vier“.

Nur eine KI erkannte ein Glas mit getrockneten Steinpilzen

Die nächste Aufgabe bestand darin, Tipps zum Kuchen backen von den KIs zu bekommen. Mrwhosetheboss lud dazu ein Foto von fünf Zutaten hoch, erschwerte die Situation allerdings, indem er den Zutaten auch ein Glas mit Steinpilzen hinzufügte. Bis auf ein Modell fielen die KIs auf den Trick des YouTubers herein und identifizierten das Glas mit den getrockneten Pilzen falsch. Lediglich Grok erkannte das Objekt korrekt und lieferte sogar die Info, dass es sich um ein Produkt von Waitrose, einer Premium-Supermarktkette in Großbritannien, handle.

Im weiteren Verlauf seines Tests wurden die KI-Modelle zu Aufgaben bezüglich Mathematik, Buchhaltung, Produktempfehlungen, Übersetzungen von Sprachen, Logik und mehr befragt. Allen KIs war gemeinsam, dass sie dazu neigten, zu halluzinieren: Sie erfanden Informationen, die nicht existierten. Am Ende konnte sich ChatGPT mit 29 Punkten vor Grok mit 24 Punkten durchsetzen. Auf Platz 3 landete Gemini mit 22 Punkten, und am schlechtesten schnitt Perplexity mit 19 Punkten ab. Das gesamte Video mit Mrwhosetheboss’ KI-Duell haben wir euch unter dem Artikel eingebunden.

Fotos: Mrwhosetheboss/YouTube.