und Naturwissenschaften
KI und LLMs unterstützen beim Erstellen von Systematischen Reviews
13. Januar 2025, von Maria Latos

Foto: Ki-generiert mit Dall-E 3
Forschende unter Federführung der Fakultät für Mathematik, Informatik und Naturwissenschaften der Universität Hamburg haben herausgefunden, dass sogenannte Große Sprachmodelle (Large Language Models, LLMs), den Arbeitsaufwand bei der Auswahl von Artikeln für Systematische Reviews deutlich reduzieren können. Die Ergebnisse wurden in der Fachzeitschrift „Proceedings of the National Academy of Sciences of the United States of America (PNAS)“ veröffentlicht.
Die Flut der Publikationen im Bereich der Lebenswissenschaft, z.B. im Kontext der COVID-Pandemie, machen es immer schwieriger, mit dem aktuellen Stand der klinischen Forschung Schritt zu halten. Deshalb sind systematische Reviews (SR) in der Medizin so wichtig. Sie fassen die umfangreiche medizinische Literatur zusammen und helfen dabei, den aktuellen Wissensstand in einem Fachbereich zu bündeln. Allerdings erfordern sie ein systematisches, arbeitsintensives Identifizieren und Auswählen von relevanten Artikeln, bevor die Daten extrahiert und zusammengefast werden können. Künstliche Intelligenz (KI) hat sich nun als ein vielversprechendes Werkzeug herauskristallisiert, um Forschende bei ihrer Arbeit zu unterstützen: Insbesondere große Sprachmodelle (LLMs) wie die GPT-Familie sind fortschrittliche KI-Systeme, die in der Lage sind, auf der Grundlage großer Mengen von Trainingsdaten menschenähnliche Texte zu verstehen, auszuwählen, und zu generieren.
Ein internationales Forschungsteam unter der Leitung von Forschenden der Universität Hamburg haben nun die Überschneidung zwischen Titel- und Abstract-basierten ausgewählten Artikeln von 18 verschiedenen LLMs und von durch Menschen ausgewählten Artikeln für drei Systematische Reviews (SRs) untersucht. Die LLMs klassifizierten die Artikel akkurat als relevant bzw. irrelevant für den jeweiligen SR, basierend auf den Titeln und Abstracts.
„Wir konnten zeigen, dass LLMs die Arbeitsbelastung von einem der zwei geforderten Gutachtenden beim Screening von Titeln und Abstracts zwischen 33 und 93 Prozent reduzieren können. Um die LLMs optimal zu unterstützen, sollte die genaue Formulierung der Ein- und Ausschlusskriterien im Vorfeld mit Hilfe der LLMs verfeinert werden,“ sagt Dr. Linda Baumbach, Wissenschaftliche Mitarbeiterin am Zentrum für Bioinformatik (ZBH) der Universität Hamburg und Letztautorin der Publikation.
Fernando Delgado-Chaves, Wissenschaftlicher Mitarbeiter am ZBH und Hauptautor der Studie, betonte das Potenzial von LLMs, das Problem der menschlichen Voreingenommenheit in systematischen Übersichten ausgleichen zu können: „Unsere Forschung deutet darauf hin, dass der Screening-Prozess, der traditionell von Menschen durchgeführt wird, durch unbewusste Voreingenommenheit beeinflusst werden kann. LLMs sind zwar nicht völlig unvoreingenommen, aber ihre Voreingenommenheit ist leichter zu erkennen und anzugehen. Ein kooperativer Ansatz, bei dem LLMs und Menschen zusammenarbeiten, könnte zu robusteren und zuverlässigeren systematischen Übersichten führen.“
Zukünftige LLMs werden die Fähigkeit besitzen, den Prozess der Erstellung systematischer wissenschaftlicher Reviews in verschiedenen Phasen zu verbessern und zu beschleunigen. Das gilt insbesondere für die Definition und die Identifizierung von Synonymen für Suchbegriffe, für die Auswahl von Studien durch Titel-, Abstract- und Volltextscreening, und für die Datenextraktion. Die Forschenden gehen auch davon aus, dass künftige LLMs eine ähnliche Leistung erbringen oder, bei weiterer Entwicklung, vielleicht sogar besser sein werden, als die aktuellen Studienergebnisse vermuten lassen. Ein LLM kann jedoch die Gutachtenden nicht vollständig ersetzen, sondern reduziert die Arbeitslast und dient als zusätzliches Werkzeug sowie Wissensquelle.
Originalpublikation
F.M. Delgado-Chaves, M.J. Jennings, A. Atalaia, J. Wolff, R. Horvath, Z.M. Mamdouh, J. Baumbach, and L. Baumbach (2025) Transforming literature screening: The emerging role of large language models in systematic reviews, Proc. Natl. Acad. Sci. U.S.A. 122 (2) e2411962122.
https://doi.org/10.1073/pnas.2411962122