Forscher öffnen Sky-T1 als Quelle, ein „logisches“ KI-Modell, das für weniger als 450 US-Dollar trainiert werden kann

Die Entwicklung sogenannter Reasoning-KI-Modelle wird immer einfacher – und kostengünstiger.

Am Freitag veröffentlichte NovaSky, ein Forscherteam des Sky Computing Lab der UC Berkeley, Sky-T1-32B-Preview, ein Argumentationsmodell, das in einer Reihe wichtiger Benchmarks mit einer früheren Version von OpenAIs o1 konkurriert. Sky-T1 scheint das erste wirklich Open-Source-Argumentationsmodell in dem Sinne zu sein, dass es von Grund auf repliziert werden kann; Das Team veröffentlichte den Datensatz, den es zum Trainieren verwendet hatte, sowie den erforderlichen Trainingscode.

„Bemerkenswerterweise wurde Sky-T1-32B-Preview für weniger als 450 US-Dollar verkauft“, schrieb das Team in einem Blogbeitrag„was zeigt, dass es möglich ist, Fähigkeiten zum logischen Denken auf hoher Ebene kostengünstig und effizient zu reproduzieren.“

Im Gegensatz zu den meisten KI-Modellen überprüfen Argumentationsmodelle die Fakten effektiv selbst, was ihnen hilft, einige der Fallstricke zu vermeiden, die Modelle normalerweise zum Stolpern bringen. Reasoning-Modelle brauchen im Vergleich zu einem typischen Non-Reasoning-Modell etwas länger – in der Regel Sekunden bis Minuten länger –, um zu Lösungen zu gelangen. Der Vorteil besteht darin, dass sie in Bereichen wie Physik, Naturwissenschaften und Mathematik tendenziell zuverlässiger sind.

Das NovaSky-Team sagt, es habe ein anderes Argumentationsmodell, Alibabas QwQ-32B-Preview, verwendet, um die ersten Trainingsdaten für Sky-T1 zu generieren, dann die Datenmischung „kuratiert“ und den GPT-4o-mini von OpenAI genutzt, um die Daten in mehr umzuwandeln funktionsfähiges Format. Das Training des Sky-T1 mit 32 Milliarden Parametern dauerte mit einem Rack aus 8 Nvidia H100-GPUs etwa 19 Stunden. (Parameter entsprechen in etwa den Problemlösungsfähigkeiten eines Modells.)

Nach Angaben des NovaSky-Teams schneidet Sky-T1 bei MATH500, einer Sammlung von Mathe-Herausforderungen auf „Wettbewerbsniveau“, besser ab als eine frühe Vorschauversion von o1. Das Modell übertrifft auch die Vorschau von o1 bei einer Reihe schwieriger Probleme von LiveCodeBench, einer Codierungsbewertung.

Allerdings bleibt Sky-T1 hinter der o1-Vorschau auf GPQA-Diamond zurück, die Fragen zu Physik, Biologie und Chemie enthält, die ein Doktorand kennen sollte.

Es ist auch wichtig zu beachten, dass OpenAIs GA-Version von o1 ein stärkeres Modell als die Vorschauversion von o1 ist und dass OpenAI in den kommenden Wochen voraussichtlich ein noch leistungsfähigeres Argumentationsmodell, o3, veröffentlichen wird.

Das NovaSky-Team sagt jedoch, dass Sky-T1 nur den Anfang seiner Reise zur Entwicklung von Open-Source-Modellen mit erweiterten Argumentationsfunktionen markiert.

„In Zukunft werden wir uns auf die Entwicklung effizienterer Modelle konzentrieren, die eine starke Argumentationsleistung aufrechterhalten, und auf die Erforschung fortschrittlicher Techniken, die die Effizienz und Genauigkeit der Modelle zum Testzeitpunkt weiter verbessern“, schrieb das Team in dem Beitrag. „Bleiben Sie auf dem Laufenden, während wir bei diesen spannenden Initiativen Fortschritte machen.“

tch-1-tech