adesso Blog

Ein innovativer Forschungsansatz zur besseren Verständlichkeit von KI-Systemen

Die Erklärbarkeit von Künstlicher Intelligenz (KI) ist seit Jahren ein zentrales Thema in der Entwicklung vertrauenswürdiger Systeme. Doch während klassische Methoden wie Attribution Methods nur bestimmte Pixel oder Merkmale hervorheben, die häufig die Einbeziehung von Experten erfordern, um die Ergebnisse für nicht-technische Anwenderinnen und Anwender zu überprüfen oder zu interpretieren, geht ein neuer Forschungsansatz einen Schritt weiter. Er lässt Large Language Models (LLMs) wie ChatGPT selbst zu Explainer für visuelle KI-Systeme werden – und zwar in natürlicher Sprache und nachvollziehbarer Struktur.

Das Konzept nennt sich Language Model as Visual Explainer (LVX). Es verbindet Vision-Modelle (Bilderkennung) mit Sprachmodellen, um visuelle Entscheidungen strukturiert und ohne zusätzliches Training zu erklären.

Der Kernpunkt: Warum es nicht ausreicht, KI-Systeme nur zu beobachten, ohne sie zu verstehen

Deep Learning Modelle in der Bilderkennung sind hochpräzise, aber oft intransparent. Ein Modell klassifiziert ein Bild als „Hund“, aber warum genau? Hat es die Ohren erkannt? Die Körperform? Oder war es vielleicht nur der Hintergrund?

Klassische Erklärungsverfahren, wie beispielsweise Feature Attribution, liefern technische Einsichten, sind aber selten verständlich. Sprachbasierte Erklärungen wären intuitiver, erfordern aber meist manuelle Annotationen, was aufwendig und fehleranfällig ist.

LVX schlägt einen eleganten Mittelweg vor: Es kombiniert die Präzision visueller Modelle mit dem Weltwissen und Sprachverständnis von LLMs, um aus den Features der Vision-Modelle eine Baumstruktur natürlicher Sprache zu erzeugen. Diese dient als eine Art Entscheidungslogik zum Nachlesen.

So funktioniert LVX unter der Haube

Der Ansatz von LVX lässt sich in drei Phasen unterteilen: Konstruktion, Verfeinerung und Anwendung.

Konstruktion: Vom Konzept zur Erklärung

Zuallererst wird ein LLM wie GPT-4 mit typischen Attributen einer Objektklasse befragt („Was macht einen Hund aus?“). Die Antwort: „Ein Hund hat vier Beine, eine feuchte Nase, ein buschiges Fell…“.

Für jedes dieser Attribute werden passende Bilder über eine Text-zu-Bild-API (zum Beispiel Bing Image Search oder Stable Diffusion) gesammelt. Diese Bilder werden dann vom Vision-Modell analysiert und die entstehenden Embeddings dienen als Prototyp in einem hierarchischen Entscheidungsbaum.

Verfeinerung: Was das Modell wirklich erkennt

Anschließend wird der Baum anhand echter Trainingsdaten angepasst. Erkennt das Modell ein bestimmtes Attribut regelmäßig (zum Beispiel „lange Ohren“), dann wird der Knoten ausgebaut. Wird ein anderes Attribut nie aktiviert, wird es entfernt. So wächst ein individueller Entscheidungsbaum für jede Klasse, der die interne Struktur des Modells repräsentiert.

Anwendung: Erklärungen im Einsatz

Kommt ein neues Bild ins Modell, navigiert der Feature-Vektor – wie im Entscheidungsprozess – durch den Baum. Der Weg von der Wurzel (z. B. „Hund“) bis zum Blatt (zum Beispiel „kurzes, braunes Fell“) liefert eine präzise, verständliche Erklärung für die Modellentscheidung.

Warum das wichtig ist: Erklärbarkeit, Performance und Diagnose

LVX bietet mehrere Vorteile:

  • Plausibilität: Die erzeugten Entscheidungsbäume stimmen sehr mit menschlicher Wahrnehmung überein, da sie visuelle Merkmale in einer hierarchischen Struktur beschreiben, die intuitiv verständlich ist. Dadurch lassen sich Modellentscheidungen leichter nachvollziehen.
  • Treue: Die Erklärungen spiegeln die tatsächliche Entscheidungslogik des Modells wider, weil sie direkt aus den internen Repräsentationen abgeleitet werden und nicht bloß nachträglich konstruiert sind. So wird vermieden, dass Erklärungen “geschönt” wirken.
  • Stabilität: Auch bei leicht veränderten Inputs (zum Beispiel verrauschten oder partiell ausgeschnittenen Bildern) bleiben die Erklärungen konsistent. Das bedeutet, dass LVX nicht zufällig andere Begründungen liefert, sondern robust das gleiche Entscheidungsraster beibehält.

Was LVX besonders spannend macht: Die Erklärung kann auch zur Modellkalibrierung genutzt werden. Es verwendet den Baum als Pseudolabel und verbessert so die Trennschärfe des Modells. In Experimenten stieg die Genauigkeit gegenüber klassischen Verfahren messbar an.

Fehlerklassifikationen besser verstehen

Ein Modell verwechselt einen weißen Hai mit einem Orca? Kein Problem. LVX zeigt, dass beide Wesen „schwarze Rückenflosse“ und „weiße Flecken“ teilen. Der Unterschied lag im „fehlenden Schwanzflossenmerkmal“. Solche Hinweise können Entwickler nutzen, um gezielt das Vision-Modell nachzuschulen.


GenAI Impact Report 2025

50 Prozent der Unternehmen sind bereit – Und der Rest?

Wie gut ist die deutsche Wirtschaft auf den Wandel durch GenAI vorbereitet? Wie sehen die Verantwortlichen ihre Branche und unser Land aufgestellt? Wo bringt die Technologie schon heute echte Effizienzgewinne? Und wo gibt es noch Hürden?

Findet es heraus, in unserem neuen GenAI Imact Report 2025.

Jetzt kostenlos downloaden


Fazit: Mehr Transparenz dank KI für KI

LVX ist mehr als ein weiteres Tool für Erklärungen. Es ist ein Paradigmenwechsel: Die Kombination von Sprachmodellen und Vision-Modellen erlaubt es, neuronale Netze aus sich selbst heraus zu erklären, und zwar in Form, Struktur und Sprache, die auch für Menschen intuitiv sind.

Für Unternehmen, die auf KI setzen, bietet diese Methode neue Möglichkeiten für:

  • Nachvollziehbare Entscheidungen in sensiblen Bereichen (beispielsweise autonome Systeme)
  • Optimierung und Fehlersuche in Vision-Modellen

Die Studie zur LVX-Methode ist ein beeindruckender Schritt in Richtung vertrauenswürdiger und transparenter KI und zeigt, wie weit wir kommen, wenn wir Modelle nicht nur trainieren, sondern auch zu Wort kommen lassen.


Wir unterstützen euch!

Möchtet ihr KI-Systeme nicht nur einsetzen, sondern auch verstehen?Wir unterstützen euch dabei, erklärbare und vertrauenswürdige KI-Lösungen zu entwickeln – von der Auswahl der passenden Modelle bis zur Implementierung innovativer Ansätze wie Language Model as Visual Explainer.

Jetzt unverbindlich Kontakt aufnehmen


Bild Musa Samet Koca

Autor Musa Samet Koca

Musa Samet Koca ist Werkstudent im Bereich Consulting bei adesso und studiert Angewandte Informatik im Master. Durch seine alltäglichen Tätigkeiten in verschiedenen adesso-Projekten konnte er bereits umfassende Erfahrungen in der Rolle als Berater sammeln. Dabei hat er unter anderem Verantwortung als Product Owner, Scrum Master und PMO übernommen. Darüber hinaus engagiert er sich als Mitverantwortlicher für das Portal der students@adesso-Community und trägt so aktiv zur Vernetzung und Unterstützung der Studierenden bei adesso bei.

Kategorie:

KI

Schlagwörter:

GenAI

Künstliche Intelligenz (KI)