Die Bedeutung öffentlicher Daten
Öffentliche Daten sind eine wertvolle Ressource: Sie können das Gemeinwohl fördern, indem sie Transparenz schaffen und Innovationen begünstigen. Doch trotz dieser Potenziale bleiben viele Datensätze ungenutzt, da oft die erforderlichen Kenntnisse fehlen, um komplexe Datenportale zu navigieren oder Daten zu analysieren. Hier setzt das Forschungsprojekt an, indem es darauf abzielt, eine benutzerfreundliche Schnittstelle bereitzustellen, die Nutzer*innen durch einfache Sprachbefehle Zugang zu den gewünschten Informationen ermöglicht.
Die Rolle von LLM-basierten Assistenten
Sprachassistenten haben sich in den letzten Jahren weiterentwickelt und nutzen mittlerweile leistungsstarke KI-Modelle wie ChatGPT, um Benutzeranfragen in natürlicher Sprache zu verarbeiten. Der Vorteil? Selbst komplexe Fragen können von Bürger*innen und Verwaltungsmitarbeitenden einfach gestellt werden, ohne spezifisches technisches Vokabular zu kennen. Der LLM-basierte Assistent übernimmt die Übersetzung der Anfragen in Datenabfragen und kann relevante Antworten direkt liefern. Dadurch wird der Zugang zu den Daten vereinfacht, und die Nutzung öffentlicher Datenportale wird für eine breitere Öffentlichkeit zugänglich.
Transparenz und Nachvollziehbarkeit: Ein Muss für öffentliche Daten
Eine wesentliche Herausforderung bei der Nutzung von KI-gestützten Assistenten ist die Vermeidung von „Halluzinationen“ – also Antworten, die auf falschen Annahmen oder falschen Interpretationen basieren. Um diese Problematik zu adressieren, integrieren die Forscher des KIT einen sogenannten „Chain-of-Thought“-Ansatz. Der Assistent zeigt dabei die Schritte seiner Schlussfolgerungen an, sodass Nutzer*innen nachvollziehen können, wie die Antwort zustande kam. Diese Transparenz ist insbesondere für die öffentliche Nutzung von Bedeutung, da falsche Informationen weitreichende Konsequenzen haben könnten.
Die ersten Designprinzipien: Ein Prototyp für den praktischen Einsatz
Basierend auf der „Theory of Effective Use“ und durch Interviews und Fokusgruppen wurde ein erster Prototyp für den öffentlichen Datenassistenten entwickelt. Drei zentrale Designprinzipien wurden dabei formuliert:
- Natürliche Sprachinteraktion: Der Assistent soll Nutzeranfragen in natürlicher Sprache verstehen und beantworten, unabhängig vom technischen Hintergrund der Fragesteller*innen.
- Erklärung der Schlussfolgerungen: Der Assistent stellt seine Denkschritte transparent dar, um den Nutzer*innen zu ermöglichen, die Informationsquelle und -qualität zu überprüfen.
- Einschränkung auf vertrauenswürdige Datenquellen: Der Assistent soll sich ausschließlich auf die im Portal verfügbaren Daten stützen, um Fehlinterpretationen und Unsicherheiten zu minimieren.
Dieser Prototyp wurde in einer mittleren Stadt in Süddeutschland mit rund 250.000 Einwohnerinnen getestet. Erste Rückmeldungen aus dem Pilotprojekt zeigten eine hohe Zufriedenheit und ein positives Feedback. Nutzerinnen schätzten die schnelle und einfache Informationsbeschaffung, während auch Verbesserungspotenzial, etwa bei der Darstellung komplexer Datensätze, angesprochen wurde.
Herausforderungen und Potenziale für die Zukunft
Die Entwicklung solcher LLM-basierten Assistenten für öffentliche Daten steht noch am Anfang, bietet jedoch zahlreiche Chancen, öffentliche Daten und deren Nutzung weiter zu demokratisieren. Ein nächster Schritt besteht darin, alternative LLM-Modelle zu testen, um langfristige, sichere und kosteneffiziente Lösungen zu entwickeln, die Datenschutz und Nachhaltigkeit gewährleisten. In einer fortschreitend digitalisierten Welt könnten diese Assistenten einen wertvollen Beitrag leisten, um Bürger*innen und Verwaltung gleichermaßen bei der Nutzung von Daten zu unterstützen und letztlich die Transparenz und Beteiligung an Entscheidungsprozessen zu fördern.
Fazit
Die Entwicklung eines LLM-basierten Assistenten für öffentliche Daten zeigt, wie moderne KI-Technologien dabei helfen können, den Zugang zu Daten zu vereinfachen und die Bürgernähe der Verwaltung zu stärken. Durch die Möglichkeit, Informationen in natürlicher Sprache abzurufen, wird der Zugang für eine breite Zielgruppe erleichtert – unabhängig von deren technischer Expertise. Das Projekt verdeutlicht, wie Forschung und Innovation praxisnahe Lösungen schaffen können.
Weitere Informationen finden Sie in der folgenden Publikation:
Schelhorn, T.C., Gnewuch, U., Maedche, A. (2024). Designing a Large Language Model Based Open Data Assistant for Effective Use. In: Mandviwalla, M., Söllner, M., Tuunanen, T. (eds) Design Science Research for a Resilient Future. DESRIST 2024. Lecture Notes in Computer Science, vol 14621. Springer, Cham.
27.06.24