Meta entwickelt mit Llama eines der größten grundlegenden Open-Source-Modelle für große Sprachen und geht davon aus, dass für das Trainieren der Modelle in Zukunft erheblich mehr Rechenleistung erforderlich sein wird.
Mark Zuckerberg sagte am Dienstag bei Metas Gewinnbesprechung zum zweiten Quartal, dass das Unternehmen für das Training von Llama 4 zehnmal mehr Rechenleistung benötige als für das Training von Llama 3. Er möchte aber trotzdem, dass Meta seine Kapazitäten zum Trainieren von Modellen aufbaut, anstatt hinter seine Konkurrenten zurückzufallen.
„Der Rechenaufwand, der zum Trainieren von Llama 4 nötig ist, wird wahrscheinlich fast zehnmal höher sein als der, den wir zum Trainieren von Llama 3 benötigt haben, und künftige Modelle werden noch mehr Rechenleistung erfordern“, sagte Zuckerberg.
„Es ist schwer vorherzusagen, wie sich dies über mehrere Generationen hinweg entwickeln wird. Aber angesichts der langen Vorlaufzeiten für die Initiierung neuer Inferenzprojekte würde ich zum jetzigen Zeitpunkt lieber das Risiko eingehen, Kapazitäten aufzubauen, bevor sie benötigt werden, als zu spät.“
Meta veröffentlichte im April Llama 3 mit 80 Milliarden Parametern. Letzte Woche veröffentlichte das Unternehmen eine verbesserte Version des Modells namens Llama 3.1 405B, die 405 Milliarden Parameter enthielt und damit Metas größtes Open-Source-Modell war.
Susan Li, CFO von Meta, sagte außerdem, das Unternehmen denke über verschiedene Rechenzentrumsprojekte nach und baue Kapazitäten auf, um zukünftige KI-Modelle zu trainieren. Sie sagte, Meta erwarte, dass diese Investition die Investitionsausgaben im Jahr 2025 erhöhen werde.
Das Trainieren großer Sprachmodelle kann ein kostspieliges Geschäft sein. Die Investitionsausgaben von Meta stiegen im zweiten Quartal 2024 um fast 33 % auf 8,5 Milliarden US-Dollar, gegenüber 6,4 Milliarden US-Dollar im Vorjahr, was auf Investitionen in Server, Rechenzentren und Netzwerkinfrastruktur zurückzuführen ist.
Laut einem Bericht von Die InformationOpenAI gibt 3 Milliarden US-Dollar für Trainingsmodelle und weitere 4 Milliarden US-Dollar für die ermäßigte Anmietung von Servern bei Microsoft aus.
„Während wir die Trainingskapazität für generative KI skalieren, um unsere Basismodelle weiterzuentwickeln, werden wir unsere Infrastruktur weiterhin so ausbauen, dass wir im Laufe der Zeit Flexibilität bei der Nutzung haben. Dies wird es uns ermöglichen, die Trainingskapazität auf die Gen-KI-Inferenz oder auf unsere Kernarbeit im Bereich Ranking und Empfehlungen zu konzentrieren, wenn wir davon ausgehen, dass dies wertvoller wäre“, sagte Li während des Telefonats.
Während des Gesprächs sprach Meta auch über die Nutzung seiner verbraucherorientierten Meta AI und sagte, Indien sei der größte Markt für seinen Chatbot. Li merkte jedoch an, dass das Unternehmen nicht erwartet, dass Gen AI-Produkte einen signifikanten Beitrag zum Umsatz leisten werden.