Wie ist das System entstanden?
Das Tool wurde im Rahmen von Beobachtungen und Workshops entwickelt, bei denen Nutzer:innen Sprachmodelle für ihre spezifischen Aufgaben testeten. Die Erkenntnis: Viele greifen auf manuelle Methoden wie Excel-Tabellen zurück, um Antworten verschiedener Modelle zu vergleichen. Diese Beobachtung diente als Grundlage für ein benutzerfreundliches Evaluierungstool, das in einem iterativen Entwicklungsprozess gestaltet wurde. Ziel ist es, eine Plattform bereitzustellen, die eine intuitive und praxisnahe Vergleichbarkeit ermöglicht.
Welche Vorteile bietet das Tool?
-
Unvoreingenommene Bewertung: Antworten der Modelle werden in zufälliger Reihenfolge dargestellt, ohne Angabe des Modellnamens. Dies vermeidet Markenbeeinflussung.
-
Kontextrelevanz: Nutzer:innen können Aufgabenbeschreibungen und Eingabeaufforderungen (Prompts) festlegen, die auf ihre spezifischen Anforderungen zugeschnitten sind.
-
Praktische Anwendung: Die Ergebnisse werden übersichtlich in Diagrammen und Tabellen dargestellt, ähnlich den von Nutzer:innen präferierten Methoden.
Was steht als Nächstes an?
Die Benutzerfreundlichkeit soll weiter optimiert und zusätzliche Funktionen wie die Integration externer Datenquellen und Internetverbindungen ermöglicht werden.
Fazit
Das vorgestellte Tool bietet einen innovativen Ansatz für die Evaluierung von Sprachmodellen, indem es den Menschen und seine Bedürfnisse in den Fokus rückt. Es zeigt, wie praxisnahe Forschung sowohl die wissenschaftliche Gemeinschaft als auch Nutzer:innen im Alltag unterstützen kann. Weitere Informationen und Details finden sich im angehängten wissenschaftlichen Manuskript sowie in dem unten verlinkten Demonstrationsvideo, das einen Einblick in die Funktionsweise des Systems bietet.
Klicken Sie hier, um sich das Demonstrationsvideo anzusehen.