Dieser neue Benchmark könnte die größte Schwäche der KI aufdecken
ARC-AGI-3 testet, ob Modelle neuartige Probleme lösen und nicht nur Muster abrufen können, eine Aufgabe, mit der selbst Top-Systeme immer noch Schwierigkeiten haben. Die einflussreiche KI-Re