Ein ursprünglich für Operationen der künstlichen Intelligenz entwickelter Hardwarebeschleuniger beschleunigt erfolgreich die Ausrichtung von Protein- und DNA-Molekülen und macht den Prozess bis zu zehnmal schneller als modernste Methoden.
Dieser Ansatz kann die Ausrichtung von Proteinsequenzen und DNA für den Genomzusammenbau effizienter machen, was ein grundlegendes Problem in der Computerbiologie darstellt.
Giulia Guidi, Assistenzprofessorin für Informatik am Cornell Ann S. Bowers College of Computing and Information Science, leitete eine Studie, um die Leistung des Beschleunigers, einer sogenannten Intelligence Processing Unit (IPU), anhand vorhandener DNA- und Proteinsequenzdaten zu testen. Die IPU beschleunigt den Ausrichtungsprozess, indem sie mehr Speicher bereitstellt, um die Datenbewegung zu beschleunigen – ein häufiges Hindernis.
„Sequenzausrichtung ist ein äußerst wichtiger und rechenintensiver Teil praktisch jeder Computerbiologie-Arbeitsbelastung“, sagte Guidi. „Es kommt äußerst häufig vor und ist normalerweise einer der Engpässe bei der Berechnung.“
Die Studie, „Platzsparende Sequenzausrichtung für SRAM-basiertes Computing: X-Drop auf der Graphcore-IPU,“ wird von Co-Erstautor Luk Burchard, einem ehemaligen Gastwissenschaftler an der Cornell University und Doktorand am Simula Research Laboratory, im vorgestellt Supercomputing2023-Konferenz14. November. Max Xiaohang Zhao, ebenfalls ehemaliger Gastwissenschaftler an der Cornell University, jetzt an der Charité Universitätsmedizin, ist ebenfalls Co-Erstautor.
Mit ihrer Forschung möchte Guidi Wissenschaftlern helfen, Probleme zu lösen, an denen sie noch nicht einmal versucht haben, weil sie so viel Rechenleistung erfordern. Diese komplexen Probleme erfordern umfangreiche Berechnungen – Anordnungen aus Prozessoren, Speicher, Netzwerken und Datenspeichern, die große Rechenaufgaben bewältigen können.
Das Ausrichten von DNA- oder Proteinsequenzen ist eines dieser komplexen Probleme. Bei der Sequenzierung eines Genoms stehen Biologen am Ende Tausende oder Millionen kurzer DNA-Sequenzen zur Verfügung, die wie ein Puzzle zusammengesetzt werden müssen. Mithilfe eines Algorithmus identifizieren sie überlappende Sequenzpaare und verknüpfen die Paare dann.
Im letzten Jahrzehnt haben sich Wissenschaftler Grafikprozessoren (GPUs) zugewandt, die ursprünglich zur Beschleunigung der Grafikwiedergabe in Videospielen entwickelt wurden, um die Sequenzausrichtung durch parallele Ausführung von Berechnungen zu beschleunigen. Im Zuge der Entwicklung von IPUs für KI-Anwendungen wollten Guidi und ihre Kollegen wissen, ob sie die neuen Beschleuniger nutzen könnten, um dieses Problem anzugehen.
„Der Bedarf an groß angelegten Berechnungen wächst für viele Fachwissenschaften, weil wir heute viel besser in der Datengenerierung sind als je zuvor“, sagte Guidi. „Parallel-Computing hat sich von einem Luxus zu etwas entwickelt, das nicht verhandelbar ist.“
IPUs waren für Guidi interessant, weil sie über eine beträchtliche On-Device-Bandbreite für die Datenübertragung verfügen und ungleichmäßige und unvorhersehbare Arbeitslasten bewältigen können. X-Drop, ein beliebter Algorithmus zum Ausrichten von Sequenzen, weist ein sehr unregelmäßiges Berechnungsmuster auf. Wenn zwei Sequenzen übereinstimmen, erfordert der Algorithmus einen großen Rechenaufwand, um die richtige Ausrichtung zu bestimmen. Wenn sie jedoch nicht übereinstimmen, stoppt der Algorithmus einfach. GPUs haben mit dieser Art unregelmäßiger Berechnungen zu kämpfen, aber die IPU war hervorragend.
Als Guidis Gruppe mit Hilfe der IPU Sequenzen aus den Modellorganismen E. coli und C. elegans zusammenstellte, erreichten sie eine zehnmal schnellere Leistung im Vergleich zu einer GPU, die unnötig viel Zeit mit der Datenübertragung verschwendet, und eine 4,65-mal schnellere Leistung als eine Zentraleinheit (CPU) auf einem Supercomputer.
Derzeit wird die Größe der von Wissenschaftlern verarbeiteten Genome durch die Anzahl der verfügbaren IPU- und GPU-Geräte sowie die Bandbreite für die Datenübertragung zwischen der Host-CPU und dem Hardwarebeschleuniger begrenzt. Auf der IPU ist viel Speicher vorhanden, die Übertragung der Daten vom Host verursacht jedoch einen großen Engpass.
Das Team trug zur Lösung dieses Problems bei, indem es den Speicherbedarf des X-Drop-Algorithmus um das 55-fache verringerte. Dies ermöglichte die Ausführung auf der IPU und reduzierte die von der CPU übertragene Datenmenge. Dadurch konnte das System größere Vergleiche durchführen und mehr Sequenzvergleiche auf der IPU durchführen, was dazu beitrug, die ungleichmäßige Arbeitsbelastung auszugleichen.
„Sie können die hohe Speicherbandbreite der IPU nutzen und so die gesamte Verarbeitung beschleunigen“, sagte Guidi.
Wenn Anbieter den Datenübertragungsprozess zwischen CPU und IPU verbessern und das Software-Ökosystem verbessern können, geht Guidi davon aus, dass sie größere Genome auf denselben IPUs verarbeiten kann.
„Die IPU könnte die nächste GPU werden“, sagte sie.
Die Studie ist veröffentlicht auf der arXiv Preprint-Server.
Mehr Informationen:
Luk Burchard et al., Space Efficient Sequence Alignment for SRAM-Based Computing: X-Drop on the Graphcore IPU, arXiv (2023). DOI: 10.48550/arxiv.2304.08662