Handgemalte Moleküle für die künstliche chemische Intelligenz

Kann künstliche Intelligenz auch handgemalte chemische Strukturen erkennen? Ein studentisches Team in der Recklinghäuser Lehreinheit „Molekulare Biologie“ erstellt den ersten standardisierten wissenschaftlichen Datensatz zur Analyse dieser Fragestellung. Wegen Corona trafen sich die Teilnehmer zum Abschlussgespräch „online“. Foto/Grafik: WH/AZ

„Künstlich-intelligente“ maschinelle Lernsysteme ermöglichen heute Fortschritte, die noch vor wenigen Jahren als unerreichbar galten. So kann beispeilsweise in der Molekularbiologie das kürzlich publizierte „AlphaFold-System“ der Google-Tochter „DeepMind“ die räumliche Struktur von Proteinen mit höchster Genauigkeit vorhersagen – ein Fortschritt, der vielleicht sogar mit der Entdeckung der Struktur des Erbmoleküls DNS vergleichbar ist.

In einem gemeinsamen Forschungsprojekt der Friedrich-Schiller-Universität Jena (Arbeitsgruppe Prof. Dr. Christoph Steinbeck) und der Westfälischen Hochschule (Arbeitsgruppe Prof. Dr. Achim Zielesny) wurde in den vergangenen Jahren das „„DECIMER““-Lernsystem (Deep lEarning for Chemical ImagE Recognition) – entwickelt, das organisch-chemische Strukturen, insbesondere die für die medizinische Forschung so wichtigen Naturstoffe, in digitalen Bildern erkennen kann. Dabei wird nicht nur das betreffende Molekül identifiziert, was bereits eine beachtliche Leistung wäre, sondern alle seine verschiedenen Atome, die chemischen Bindungen zwischen ihnen, räumliche Atomanordnungen (Stereochemie) oder auch die sogenannte Aromatizität, eine wichtige elektronische Moleküleigenschaft, deren Name historisch dem Substanzgeruch entstammt. Gegenwärtig ist „DECIMER“ eines der weltweit leistungsfähigsten OCSR-Systeme (Optical Chemical Structure Recognition) – nicht nur für Naturstoffe.

Innerhalb des Projektteams kam nun die Frage auf, ob das „DECIMER“-System neben professionell-systematisch – also mit Schablonen oder mittels Computer – erstellten Molekülbildern (in der obigen Abbildung unten links) auch solche zu erkennen vermag, die mit freier Hand vom Menschen gemalt sind (in der Abbildung unten rechts). Für eine wissenschaftlich valide Antwort fehlte allerdings ein entsprechend professioneller und standardisierter Datensatz mit handgemalten chemischen Strukturen. Dies war der Auftakt für ein (Corona-bedingtes) „Online“-Studierendenprojekt innerhalb der Molekularbiologie an der Westfälischen Hochschule in Recklinghausen unter der Leitung der Jenaer Forscher Dr. Kohulan Rajan und Henning Otto Brinkhaus. Diese wählten nach umfangreichen wissenschaftlichen Kriterien aus rund 100 Millionen chemischen Molekülen, mit denen das „DECIMER“-System getestet worden war, zunächst 1.000 repräsentative Strukturen für das „Handmalen" aus. In der Molekularbiologie meldeten sich freiwillig 24 Studierende, die in ihrer vorlesungsfreien Zeit diese zu Papier bringen wollten. Bei Zeit und Lust konnten die Studierenden zudem zusätzliche Moleküle zum Handmalen anfordern, wenn sie ihr Pensum realisiert hatten. Nach wenigen Wochen kamen auf diese Weise 5.976 handgemalte Moleküle zustande – damit wurden die kühnsten Erwartungen des „DECIMER“-Projektteams weit übertroffen (die Abbildung zeigt das abschließende „Zoom-Meeting“). Der geschaffene Datensatz – gegenwärtig der größte des Planeten – wird nach Aufbereitung und wissenschaftlicher Validierung auf einer offenen Daten-Plattform veröffentlicht. Eine anschließende Fachpublikation in einem internationalen Wissenschaftsjournal, die unter anderem die Leistungsfähigkeit des „DECIMER“-Systems für die handgemalten Moleküle untersucht, ist bereits in Vorbereitung. Die fünf „Top-Molekül-Maler“ (die allein 2.600 chemische Strukturen zu Papier gebracht haben) durften sich zudem über einen gesponserten Restaurantbesuch freuen. (Achim Zielesny)