Eine kürzlich in der Zeitschrift veröffentlichte Studie Wissenschaft China Biowissenschaften wurde von Dr. Nan Qiao (Labor of Health Intelligence, Huawei Cloud Computing Technologies), Dr. Hualiang Jiang (Shanghai Institute of Materia Medica, Chinese Academy of Sciences) und Dr. Mingyue Zheng (Shanghai Institute of Materia Medica, Chinese Academy of) geleitet Naturwissenschaften).
„Im vergangenen Jahr ist die Parametergröße des Sprachmodells weiter gewachsen und hat 175 Milliarden GPT3 überschritten. Kürzlich interagiert ChatGPT, ein Sprachmodell der neuen Generation, auf realitätsnähere Weise mit Benutzern, z. B. durch Beantwortung von Fragen, Fehler einzugestehen, falsche Fragen zu hinterfragen oder unangemessene Anfragen abzulehnen, und es wird sogar angenommen, dass es Suchmaschinen untergräbt“, sagt Dr. Qiao.
Neben Sprachmodellen wurden in diesen Jahren zeitgleich Bereiche wie Bild, Video und Multimodalität durch Transformer-Architekturen aufgefrischt. Diese großen Modelle verwenden normalerweise selbstüberwachtes Lernen, wodurch die Arbeitsbelastung erheblich reduziert und eine bessere Leistung bei Long-Tail-Aufgaben erzielt werden kann. Auf dem Gebiet der KI für die Arzneimittelforschung gab es jedoch kein wirklich großes Modell, um die Arzneimittelforschung und -entwicklung zu beschleunigen und die Effizienz zu verbessern.
Xinyuan Lin und Zhaoping Xiong versuchten zusammen mit Laborleiter Nan Qiao, ein großes Modell für die Wirkstoffforschung zu erstellen, das für Aufgaben der Wirkstoffforschung wie die Vorhersage molekularer Eigenschaften, die Molekülerzeugung und -optimierung verwendet werden kann. Das Team schlägt eine neuartige asymmetrische Graph-zu-Sequenz (graph2seq)-Struktur vor, die sich von den klassischen Variations-Autokodierungsprozessen von Sequenz zu Sequenz (seq2seq) und Graph-zu-Graph (graph2graph) unterscheidet.
Das Modell ist für 1,7 Milliarden arzneimittelähnliche Moleküle (derzeit die größten) vortrainiert, die Eingabe ist ein zweidimensionaler, ungerichteter zyklischer Graph von arzneimittelähnlichen Molekülen, und die Ausgabe ist die entsprechende chemische Formel oder der SMILES-String. Menschen lesen Bilder chemischer Strukturen und schreiben den Text der entsprechenden Formeln auf, sodass Pangu nach Milliarden von Wiederholungen die Beziehung zwischen chemischen Strukturen und Formelketten lernen kann, ähnlich wie menschliche kognitive Transformationen.
Nach dem Vortraining mit 1,7 Milliarden wirkstoffähnlichen kleinen Molekülen erzielte das Modell in 20 Aufgaben der Wirkstoffforschung, einschließlich der Vorhersage molekularer Eigenschaften, Ergebnisse auf dem neuesten Stand der Technik. (Vorhersage von ADMET-Eigenschaften, Verbindung-Protein-Wechselwirkungen, Arzneimittel-Wirkstoff-Wechselwirkungen und Ausbeuten chemischer Reaktionen), molekulare Erzeugung und molekulare Optimierung.
Der Pangu Molecular Generator hat auch eine neue Arzneimittel-Screening-Bibliothek mit 100 Millionen wirkstoffähnlichen kleinen Molekülen mit einer Neuheit von 99,68 % erstellt, die auch neue Verbindungen mit ähnlichen physikalisch-chemischen Eigenschaften zu einer bestimmten Verteilung effektiv erzeugen kann. Diese Bibliothek kann zur Ergänzung der bestehenden Substanzdatenbank verwendet werden. Darüber hinaus kann der Pangu Molecular Optimizer die chemische Struktur des Ausgangsmoleküls optimieren und die Eigenschaften des interessierenden Moleküls verbessern.
Mehr Informationen:
Xinyuan Lin et al., PanGu Drug Model: Lerne ein Molekül wie ein Mensch, Wissenschaft China Biowissenschaften (2022). DOI: 10.1007/s11427-022-2239-y