Qualität in der Unschärfe: KI-Systeme testen und bewerten
Künstliche Intelligenz beeindruckt – und enttäuscht. Manchmal antworten ChatBots korrekt, manchmal fehlerhaft, aber auch der absurdeste Quatsch (sowie das Gegenteil davon) wird mit scheinbar großer Sicherheit vorgetragen. Und solche Systeme sollen unternehmenskritische Prozesse steuern? Daher lautet die zentrale Herausforderung: Wie lässt sich die Qualität von KI-Systemen messen und sichern? Wie geht Qualitätssicherung mit Systemen um, die inhärent probabilistisch sind, also auch im Regelbetrieb Falschergebnisse liefern können?
Zielpublikum: Tester, Testmanager, Projektleiter, Entscheider
Voraussetzungen:Projekterfahrung, Grundkenntnisse in KI
Level: Practicing
Extended Abstract:
Gängige KI-Testframeworks (RAGAS, promptfoo, …) bieten nur einzelne Metriken, keinen umfassenden Qualitätsbegriff, wie eine ISO 25010. Für die betriebliche Praxis fehlen uns verlässliche Leitplanken.
In unserem Vortrag leuchten wir diese strategische Lücke aus und zeigen Lösungsansätze aus der Praxis. Insbesondere stellen wir ein Qualitätsmodell für KI vor und zeigen, wie der systematische Test von KI unter Berücksichtigung technischer, ethischer und betriebswirtschaftlicher Anforderungen gelingen kann. Aus unserer Sicht ist dies entscheidend für den wirtschaftlichen Erfolg von KI-Anwendungen – denn ohne stringente Qualitätssicherung bleiben KI-Anwendungen stochastische Papageien.
Test Manager / Software Architect
Dr.-Ing. Dehla Sokenou fühlt sich in allen Phasen der Softwareentwicklung zu Hause, einen besonderen Schwerpunkt bilden allerdings alle Themen rund um Qualitätssicherung und Testen. Bei der WPS ist sie als Test- und Qualitätsmanagerin sowie Softwarearchitektin tätig. Daneben ist sie Sprecherin der GI-Fachgruppe Test, Analyse und Verifikation von Software (TAV).
Dr. Harald Störrle ist seit 2000 im Bereich Anforderungen, Prozesse, und Modellierung tätig. Er arbeitet mit Stakeholdern und Fachabteilungen und bringt ihre Wünsche und Ziele in eine Form, dass Entwickler und Architekten daraus gute Software bauen können. Seit ein paar Jahren nennt man das auch „Product Owner“. In einem Paralleluniversum ist er Wissenschaftler mit Schwerpunkt empirische Methoden.