Wie Anthropic einen Trick fand, um die KI dazu zu bringen, Ihnen Antworten zu geben, die sie nicht geben sollte

Wenn man es baut, werden die Leute versuchen, es zu zerstören. Manchmal sogar die Leute Gebäude Sachen sind diejenigen, die es kaputt machen. Dies ist bei Anthropic und seiner neuesten Forschung der Fall, die eine interessante Schwachstelle in der aktuellen LLM-Technologie aufzeigt. Mehr oder weniger, wenn Sie bei einer Frage bleiben, können Sie die Leitplanken durchbrechen und am Ende mit großen Sprachmodellen enden, die Ihnen Dinge sagen, die sie eigentlich nicht tun sollen. Zum Beispiel, wie man eine Bombe baut.

Angesichts der Fortschritte in der Open-Source-KI-Technologie können Sie natürlich Ihr eigenes LLM lokal erstellen und es einfach fragen, was Sie wollen, aber für eher verbraucherorientierte Dinge ist dies ein Thema, über das man nachdenken sollte. Was heute an der KI Spaß macht, ist die rasante Entwicklung, mit der sie voranschreitet, und wie gut – oder auch nicht – wir als Spezies dabei sind, besser zu verstehen, was wir bauen.

Wenn Sie mir den Gedanken gestatten, frage ich mich, ob wir mehr Fragen und Probleme der Art sehen werden, die Anthropic skizziert, wenn LLMs und andere neue KI-Modelltypen intelligenter und größer werden. Womit ich mich vielleicht wiederhole. Aber je näher wir einer allgemeineren KI-Intelligenz kommen, desto mehr sollte sie einem denkenden Wesen ähneln und nicht einem Computer, den wir programmieren können, oder? Wenn ja, fällt es uns möglicherweise schwerer, Randfälle so weit festzulegen, dass diese Arbeit nicht mehr durchführbar ist? Wie auch immer, lasst uns darüber reden, was Anthropic kürzlich geteilt hat.

tch-1-tech