OpenAI macht einen „neuen Telemetriedienst“ für einen der längsten Ausfälle in seiner Geschichte verantwortlich.
Am Mittwoch wird die KI-gestützte Chatbot-Plattform von OpenAI, ChatGPT; sein Videogenerator, Sora; und seine entwicklerorientierte API kam es ab etwa 15:00 Uhr pazifischer Zeit zu erheblichen Störungen. OpenAI erkannte das Problem bald darauf und begann mit der Arbeit an einer Lösung. Das Unternehmen würde jedoch etwa drei Stunden brauchen, um alle Dienste wiederherzustellen.
In einer Obduktion veröffentlicht Am späten Donnerstag schrieb OpenAI, dass der Ausfall nicht durch einen Sicherheitsvorfall oder eine kürzlich erfolgte Produkteinführung verursacht wurde, sondern durch einen Telemetriedienst, den das Unternehmen am Mittwoch zur Erfassung von Kubernetes-Metriken eingesetzt hatte. Kubernetes ist ein Open-Source-Programm, das bei der Verwaltung von Containern oder Paketen von Apps und zugehörigen Dateien hilft, die zum Ausführen von Software in isolierten Umgebungen verwendet werden.
„Telemetriedienste haben eine sehr große Reichweite, daher verursachte die Konfiguration dieses neuen Dienstes unbeabsichtigt … ressourcenintensive Kubernetes-API-Vorgänge“, schrieb OpenAI in der Post-Mortem-Untersuchung. „[Our] Die Kubernetes-API-Server waren überlastet und führten in den meisten unserer großen Unternehmen zum Ausfall der Kubernetes-Steuerungsebene [Kubernetes] Cluster.“
Das ist viel Fachjargon, aber im Grunde hat der neue Telemetriedienst Auswirkungen auf den Kubernetes-Betrieb von OpenAI, einschließlich einer Ressource, auf die viele Dienste des Unternehmens für die DNS-Auflösung angewiesen sind. Die DNS-Auflösung wandelt IP-Adressen in Domänennamen um; Aus diesem Grund können Sie „Google.com“ anstelle von „142.250.191.78“ eingeben.
Die Verwendung von DNS-Caching durch OpenAI, das Informationen über zuvor gesuchte Domänennamen (z. B. Website-Adressen) und die entsprechenden IP-Adressen speichert, erschwerte die Sache durch „Verzögerung“.[ing] Sichtbarkeit“, schrieb OpenAI und „erlaubte den Rollout.“ [of the telemetry service] fortzufahren, bevor das volle Ausmaß des Problems verstanden wurde.“
OpenAI sagt, dass es das Problem „einige Minuten“ erkennen konnte, bevor die Kunden tatsächlich die Auswirkungen bemerkten, aber dass es nicht in der Lage war, schnell eine Lösung zu implementieren, da es die überlasteten Kubernetes-Server umgehen musste.
„Dies war ein Zusammentreffen mehrerer Systeme und Prozesse, die gleichzeitig ausfielen und auf unerwartete Weise interagierten“, schrieb das Unternehmen. „Unsere Tests haben die Auswirkungen der Änderung auf die Kubernetes-Steuerungsebene nicht erfasst [and] Die Sanierung verlief aufgrund des Lockout-Effekts sehr langsam.“
OpenAI sagt, dass es mehrere Maßnahmen ergreifen wird, um zu verhindern, dass ähnliche Vorfälle in Zukunft auftreten, darunter Verbesserungen bei der schrittweisen Einführung mit besserer Überwachung von Infrastrukturänderungen und neue Mechanismen, um sicherzustellen, dass OpenAI-Ingenieure unter allen Umständen auf die Kubernetes-API-Server des Unternehmens zugreifen können.
„Wir entschuldigen uns für die Auswirkungen, die dieser Vorfall auf alle unsere Kunden hatte – von ChatGPT-Benutzern über Entwickler bis hin zu Unternehmen, die auf OpenAI-Produkte angewiesen sind“, schrieb OpenAI. „Wir sind hinter unseren eigenen Erwartungen zurückgeblieben.“