Ein Framework für maschinelles Lernen zur Vorhersage und Quantifizierung von Syntheseschwierigkeiten für Designer-Chromosomen

Die Kolosseen von Elden Ring oeffnen morgen endlich im kostenlosen

Die künstliche Synthese von Genomen hat weitreichende Aussichten in Bereichen wie der medizinischen Forschung und der Entwicklung industrieller Stämme. Von der Synthese des künstlichen Lebens JCVI-syn1.0 durch das Team von Craig Venter im Jahr 2010 über die Umschreibung und Synthese des prokaryotischen E. coli-Genoms bis hin zur künstlichen Synthese des Hefegenoms im Rahmen des Sc2.0-Projekts machen die Forscher ständig Fortschritte in die Tiefe und Breite des Genomdesigns und der Synthese.

Es gibt jedoch immer noch Schwierigkeiten bei der Synthese bestimmter Gensegmente, was letztendlich dazu führt, dass künstliche Chromosomen nicht vervollständigt werden können, was die Anwendung und Förderung der künstlichen Genomsynthesetechnologie einschränkt. Um dieses Problem anzugehen, hat das Team von Professor Yingjin Yuan von der Tianjin University ein interpretierbares Framework für maschinelles Lernen entwickelt, das die Schwierigkeit der Chromosomensynthese vorhersagen und quantifizieren kann und eine Anleitung zur Optimierung des Chromosomendesigns und der Chromosomensyntheseprozesse bietet.

Das Forschungsteam entwarf eine effiziente Methode zur Merkmalsauswahl, indem es Daten einer großen Anzahl bekannter Chromosomenfragmente analysierte, und identifizierte sechs Schlüsselsequenzmerkmale, die Energie- und Strukturinformationen während der chemischen DNA-Synthese und -Zusammensetzung abdecken. Basierend auf diesen Ergebnissen entwickelte das Team ein eXtreme Gradient Boosting (XGBoost)-Modell, das die Syntheseschwierigkeiten von Chromosomenfragmenten effektiv vorhersagen kann.

Das Modell erreichte eine AUC (Fläche unter den charakteristischen Kurven des Empfängers) von 0,895 in der Kreuzvalidierung und eine AUC von 0,885 auf einem unabhängigen Testset in Zusammenarbeit mit einem DNA-Syntheseunternehmen, was eine hohe Genauigkeit und Vorhersagefähigkeit demonstriert.

Das Forschungsteam schlug einen auf dem SHAP-Algorithmus basierenden Syntheseschwierigkeitsindex (S-Index) vor, um die Syntheseschwierigkeiten von Chromosomen zu bewerten und zu interpretieren. Die Studie ergab, dass es signifikante Unterschiede bei den Syntheseschwierigkeiten verschiedener Chromosomen gab, und der S-Index konnte die Ursachen von Syntheseschwierigkeiten für einige Genfragmente quantitativ erklären, wodurch eine Grundlage für das Design und die Synthese von Chromosomensequenzen geschaffen und die Effizienz und Erfolgsrate verbessert wurden der Designer-Chromosomensynthese.

Diese Errungenschaft stellt ein praktisches Werkzeug für Forscher in den Bereichen Chromosomen-Engineering und Genomumschreibung bereit und soll eine umfassendere Anleitung und Unterstützung für das Chromosomendesign und die Chromosomensynthese bieten.

Die Arbeit wird in der Zeitschrift veröffentlicht Wissenschaft China Biowissenschaften.

Mehr Informationen:
Yan Zheng et al., Durch maschinelles Lernen unterstütztes Scoring von Syntheseschwierigkeiten für Designer-Chromosomen, Wissenschaft China Biowissenschaften (2023). DOI: 10.1007/s11427-023-2306-x

Bereitgestellt von Science China Press

ph-tech