Vertrauen in KI – Wie wir KI ein Menschenleben anvertrauen können

Große Sprachmodelle (LLMs) wie Aleph Alpha oder die OpenAI-Modelle versetzen die Welt gerade in Aufruhr. Mit dem öffentlichen Release von ChatGPT Ende November 2022 rückte das Thema Künstliche Intelligenz (KI) schnell wieder in den Fokus der Öffentlichkeit. Während die einen Menschen um ihren Job bangen, freuen sich die anderen über eine tatkräftige Unterstützung, sei es auf der Arbeit oder im Alltag. Auch wenn KI-Modelle unser Leben erleichtern können, stellen sie uns gleichzeitig vor neue Herausforderungen. So können sich Lehrkräfte nun Unterstützung bei der Erstellung neuer Unterrichtsreihen holen, müssen aber auch überdenken, wie sie mit dieser „neuen“ Technologie umgehen, wenn sie von Schülerinnen und Schülern genutzt wird. LLMs können aber nicht nur zur Informationsgewinnung genutzt werden, sondern uns auch Entscheidungen abnehmen und uns beraten. Doch wie verlässlich ist diese Technologie und würden wir ihr ein Menschenleben anvertrauen?

Vorstellung des Experiments und der Forschungsgruppe

Unter anderem mit dieser Frage habe ich mich in meiner Bachelorarbeit beschäftigt. Dabei ging es um die Auswahl eines von vier Interaktionsleveln (IL) durch Expertinnen und Experten sowie darum, wie sich deren Entscheidung von der von Laien unterscheidet. Jedes IL stand dabei für ein gewisses Maß an Unterstützung, das die KI den Usern entgegenbrachte.

Während IL 1 nur eine rudimentäre Unterstützung in Form einer Quellensuche war, stand IL 2 bereits für eine Q&A-Funktion, die alle notwendigen Fragen zur Reanimation beantworten konnte. Diese reichten von „Wann beginne ich eine Reanimation?“ bis hin zu „Welcher Song hilft mir dabei, den Rhythmus während der Herzdruckmassage zu halten?“. Eine Zusammenfassung der Quelle ließ sich mit IL 3 erreichen und IL 4 war bereits eine Automatisierung des Vorgangs. Die endgültige Wahl der User zeigte daher auch, welchem Maß an Interaktion die jeweiligen Probandinnen und Probanden am meisten Vertrauen entgegenbrachten. Als Thema wurde die Reanimation am Menschen gewählt, da dieser Prozess den meisten Personen relativ bekannt und er gleichzeitig unheimlich wichtig ist.

Es wurden insgesamt 12 Personen interviewt. Vier besaßen einen medizinischen Background und waren die Expertinnen und Experten. Vier weitere Personen hatten besondere Kenntnisse im Bereich Data Science und die übrigen vier waren Laien ohne jegliche Berührungspunkte mit den beiden Themengebieten. Nach dem Interview wurde von allen Teilnehmenden zusätzlich ein Fragebogen zur Technikakzeptanz ausgefüllt, um eventuelle Verzerrungen im Ergebnis ausschließen zu können.

Vorbereitung der KI

Damit die Probandinnen und Probanden nun mit der KI interagieren konnten, wurde eine Oberfläche mit Streamlit entwickelt und an die API des Sprachmodells Luminous von Aleph Alpha angebunden. Diesem wurde daraufhin als Quelle ein Text mit den nötigen Informationen über die Reanimation am Menschen zur Verfügung gestellt. Ein gesondertes Training der KI war dabei nicht nötig, da das Modell natürliche Sprache verstehen und eigene Rückschlüsse aus dem gegebenen Text ziehen kann. Danach wurde Luminous mittels Prompt Engineering so weit beeinflusst, dass die gewünschten Ausgaben kurz und knapp waren und zum Themenbereich der Medizin passten. Dafür eignete sich ein Few-Shot, der zwei medizinische Texte abbildete und aus jedem Text jeweils eine Beispielfrage und -antwort vorgab, um dem Modell die richtige Syntax zu vermitteln.

Unterschiede zwischen Expertinnen bzw. Experten, Data Scientists und Laien

Welche Ergebnisse ergab die Studie? Die Technikakzeptanz der Probandinnen und Probanden bewegte sich im Rahmen von 3,2 – 4,4, wobei 0 das Minimum und 5 das Maximum war. Die Data Scientists und Laien hatten im Durschnitt gegenüber den Expertinnen und Experten eine leicht erhöhte Bereitschaft, sich mit Technik auseinanderzusetzen. Diese betrug 3,95 zu 3,88.

Diese Verteilung schlug sich auch auf die Wahl des ILs nieder. Während alle Laien sich für IL 4 und somit die Automatisierung der Reanimation am Menschen entschieden, fiel die Wahl der Data Scientists auf IL 2. Die Expertinnen und Experten waren sich jedoch nicht so einig. Hier entschieden sich zwei Testpersonen für IL 1 und zwei für IL 4.

Doch was sagen uns die Ergebnisse und wie sind sie zu interpretieren? Beginnen wir mit den Laien. Sie haben das höchste IL gewählt, da sie am wenigsten Erfahrung in dem Bereich hatten und die meiste Unterstützung benötigten. Zudem hatten sie dadurch auch die Möglichkeit, die Verantwortung bei Komplikationen abzugeben, und somit keine Angst mehr vor rechtlichen Konsequenzen. Die Data Scientists wollten aufgrund ihrer Erfahrung mit KI das Ruder aber nicht ganz aus der Hand geben, da es bei Technik auch immer zu Problemen kommen kann. Der Sprachassistent, der mithilfe von Tipps und Erklärungen bei der Reanimation unterstützen konnte, gab ihnen aber ein Gefühl der Sicherheit. Somit wäre es denkbar gewesen, dass die Expertinnen und Experten mit ihrem hohen Maß an Erfahrung die sicherste Variante gewählt und sich geschlossen für IL 1 entschieden hätten. Die beiden Fachleute, die sich jedoch für die Automatisierung entschieden, begründeten dies wie folgt. Zum einen würde die mentale und körperliche Belastung während einer Reanimation verringert werden und das Gerät könnte noch schneller als der Rettungsdienst vor Ort beim Patienten sein. Zudem könnte dadurch auch die Hemmschwelle von Laien fallen, eine Reanimation durchzuführen, und die Fehlerquote würde geringer werden. Das bedeutete jedoch nicht, dass sie dem Gerät mehr vertrauten als ihren eigenen Fähigkeiten, da medizinische Präzision wahrscheinlich nicht erreicht werden würde. Des Weiteren wurde diese Aussage auch mit der Forderung nach einer langen Testphase und einer medizinischen Zertifizierung abgesichert, um sich so eher auf die Maschine verlassen zu können. Wie in der Abbildung zur Technikakzeptanz zu sehen ist, besaßen eben diese beiden Fachleute auch einen hohen Score und konnten sich wahrscheinlich deshalb noch eher auf die Technik einlassen.

Sind Prompt Engineering und Trustworthy AI der Schlüssel zum Erfolg?

Was können wir mit diesen Erkenntnissen anfangen? Anhand dieser Studie lernen wir, dass das Vertrauen in eine Maschine nicht bedingungslos ist, wir ihr unter gewissen Umständen aber trotzdem ein Menschenleben anvertrauen würden. Aus diesem Grund geht die technische Entwicklung Hand in Hand mit dem Vertrauen, das wir ihr entgegenbringen, damit sie letztlich auch vom Endkunden akzeptiert wird. Der Einsatz von Trustworthy AI und die gezielte Beeinflussung dieser Modelle durch Prompt Engineering wird somit in der Zukunft unumgänglich sein. Ein Beispiel dafür ist die KI Galactica von MetaAI, die aufgrund ihres Übermaßes an Wissen die Fakten vermischte und sich so eigene Sachverhalte ausdachte und anfing zu „halluzinieren“. Des Weiteren zeigt uns die Technologie dahinter aber auch, wie viel wir mittlerweile ohne großen Aufwand mit einem großen Sprachmodell wie Luminous erreichen können. Ein kostspieliges und aufwändiges Training ist dabei nicht immer notwendig, um bestimmte Ziele zu erreichen.

Autor Chris Thurau

Chris Thurau ist Softwareentwickler und Ansprechpartner für KI-Lösungen im Gesundheitswesen. Er ist spezialisiert auf den Einsatz von großen Sprachmodellen und deren Beeinflussung durch Prompt Engineering. Darüber hinaus verfügt er über umfangreiche Kenntnisse in den Bereichen Natural Language Processing, Trustworthy AI und User Experience Design.

Kategorie:	KI
Schlagwörter:	Künstliche Intelligenz (KI) Trustworthy AI