Die Welt der NutzerInnenforschung entwickelt sich im 21. Jahrhundert rasant. Mit dem exponentiellen Wachstum der globalen Internetwirtschaft verlassen sich digitale Unternehmen auf neue und bessere Wege, um die VerbraucherInnen zu erreichen. Online-Shops und -Dienste werden immer intelligenter und lernen aus dem Verhalten ihrer NutzerInnen, noch bevor diese ihre Produkte nutzen.
All dies hat zur Folge, dass digitale Unternehmen die Interaktion von NutzerInnen mit ihren Produkten besser untersuchen müssen. Usability-Analysetools werden damit zum Synonym für nutzerzentriertes Design und Innovation. Da die visuelle Interaktion 98 % aller NutzerInnen-Interaktionen im Internet ausmacht [1], und sich zahlreiche Usability-Probleme aus Eyetracking-Daten ableiten lassen [2], lohnt sich ein Blick auf die technischen Möglichkeiten dieses Ansatzes. Der Fokus liegt dabei auf Angeboten und Technologien im Browser, die die Analyse und Verbesserung von Websites/Web-Apps ermöglichen. Mittlerweile gibt es auch erste Angebote [3] für mobile Endgeräte, die jedoch andere technische Voraussetzungen, Möglichkeiten und Einschränkungen haben.
Was unterscheidet Hardware-basiertes und Webcam-basiertes Eyetracking?
Hardware-basierte Eyetracking-Tools setzen auf Brillen und/oder am Bildschirm angebrachte Module, die die Augenbewegungen mittels Infrarotkameras sehr präzise erkennen und verfolgen können. Setup und Durchführung erfordern entsprechende Expertise und zeitlichen wie finanziellen Aufwand. Dafür erhält man Eyetracking-Daten in kontrollierter Labor-Umgebung mit einem Höchstmaß an Genauigkeit.
Webcam-basiertes Eyetracking setzt hingegen auf Methoden maschinellen Lernens, um das Gesicht der ProbandInnen zu erkennen und aus diesem die Position der Augen bzw. Pupillen zu analysieren. Mithilfe dieser Daten können die Augenbewegungen errechnet bzw. „vorhergesagt“ werden. Die steigende Rechenleistung in den Endgeräten der ProbandInnen sowie die Weiterentwicklung der Eyetracking-Software hat dazu geführt, dass für viele Anwendungsfälle auch Webcam-basiertes Eyetracking eine Alternative darstellt. Jeder Laptop mit einen Standard-Webcam wird so zu einem potenziellen „Eyetracking-Labor“. Die benötigte Zeit, der Setup-Aufwand, die nötige Expertise und die Kosten werden dadurch auf einen Bruchteil reduziert.
Während Webcam-Eyetracking-Systeme technologische Einschränkungen in Bezug auf die Datenqualität aufweisen, werden solche Systeme durch Fortschritte bei browserbasierten Technologien (z. B. Tensorflow.js und WebAssembly) weiter verbessert. Diese Technologien bieten zuverlässige browserbasierte Berechnungswerkzeuge zur Verarbeitung großer Datenmengen und gewährleisten gleichzeitig, dass sich die Daten der TeilnehmerInnen in der sichersten Umgebung befinden: ihren eigenen Endgeräten.
Wenig überraschend haben sich bereits einige Anbieter für Webcam-basiertes Eyetracking etabliert, deren Plattformen zwar unterschiedliche Features anbieten, den NutzerInnen aber ganz grundlegend immer ermöglichen,
- kontrollierte Online-Eyetracking-Studien für Bilder und Websites zu erstellen,
- ProbandInnen einzuladen und Eyetracking-Daten zu erheben,
- die von der Software ermittelten Daten, Metriken und Visualisierungen zu untersuchen, um die visuelle Aufmerksamkeit auf individueller und aggregierter Ebene zu verstehen (z.B. in Heatmaps, Scanpaths, Areas of Interest uvm.)
Webcam-basiertes Eyetracking: Technologie und Workflow
Nach wie vor ist Webcam-Eyetracking mit einigen Vorurteilen technischer und ethischer Art behaftet. Das liegt vor allem auch an historischen Gründen. Frühere Anbieter mussten die Webcam-Daten der TeilnehmerInnen auf ihren eigenen Server (zwischen)speichern, um sie weiterverarbeiten zu können. So waren die sensiblen Videodaten nicht mehr in den Händen der TeilnehmerInnen. Das ist aus heutiger Sicht schon allein datenschutzrechtlich nicht mehr zeitgemäß.
Für ein besseres Verständnis der Technologie wird im Folgenden der technische Ablauf einer Eyetracking-Studie am Beispiel unserer Software Adstata verdeutlicht. Wie andere Anbieter auch, setzen wir dabei auf moderne Methoden des maschinellen Lernens, um Webcam-Eyetracking-Daten zu erheben. Unsere Software stützt sich auf modifizierte Versionen der Open-Source-Software ‚Webgazer‘ und der Face-Mesh-Bibliothek von ‚MediaPipe‘, um Blickbewegungen in Echtzeit vorherzusagen.
Vorab ist es notwendig zu verstehen, dass die Software alle Videodaten verarbeitet und im Sinne einer Edge KI Eyetracking-Vorhersagen in Echtzeit generiert: Das bedeutet, dass die (personenbezogenen) Videodaten und der ProbandInnen die Browser-Umgebung und damit das Endgerät der Teilnehmenden nie verlassen. Weiterhin ist keine Software-Installation oder Browser-Plugin nötig.
Der Ablauf Schritt für Schritt:
- Das Webcam-Video wird in Einzelbildern mit einer optimierten Bildrate verarbeitet.
- Die Face Mesh-Bibliothek wird dann zur Erkennung und Codierung von 468 Gesichtsmerkmalen (Punkten) verwendet. Die Bilder der ‚Landmarken‘ für die Augen der ProbandInnen werden ausgeschnitten.
- Die Daten von den Augen der ProbandInnen werden dann zum Zweck der Recheneffiziens verkleinert und in Graustufen umgewandelt.
- Die Grauwerte zwischen 0 und 255 jedes Pixels in den skalierten und normalisierten Graustufen-Datenpunkten werden in 10x6-Matrizen gespeichert.
- Die Pixel-Grauwerte werden dann verarbeitet, um die Position des Auges beim Betrachten von Inhalten auf dem Bildschirm zu bestimmen. Diese verarbeiteten Werte sind x,y-Koordinaten auf dem Bildschirm mit Zeitstempel.
- Am Ende der Studie werden alle Werte vom Browser an die Datenbank des Unternehmens gesendet. Keine Videodaten oder Bilder verlassen den Browser, sondern lediglich eine Liste von x,y-Koordinaten mit jeweiligem Zeitstempeln.
Was geht im Browser?
Prinzipiell sind die Outputs (Metriken und Visualisierungen) die gleichen wie für Hardware-basiertes Eyetracking – da sich lediglich die Art und Weise unterscheidet, wie die Eyetracking-Daten erhoben werden. Je nach Anbieter liefert also auch Webcam-basiertes Eyetracking klassische Heatmaps, Statistiken zu relevanten Bereichen (Areas of Interest), die Erkennung relevanter Ereignisse (Fixationen und Sakkaden) sowie einige neuere Metriken. Die Einbußen bei Frequenz und Genauigkeit in der Erhebung der Daten kann oftmals durch die Skalierung, also die Menge an durchgeführten ‘Sessions’, ausgeglichen werden.
Bislang sind die Medien (Stims), die im Browser analysiert werden können, meist auf Videos, Bilddateien und scrollbare Bilder beschränkt. Gerade für Usability Testing ist es aber entscheidend, dass ProbandInnen mit Websites interagieren und navigieren können. Die technische Weiterentwicklung der Plattformen rückt daher zunehmend auch interaktives Testen mit „echten Websites“ in den Fokus.
Die deutlich geringeren Hürden und die Skalierbarkeit von Webcam-Eyetracking-Studien eröffnen so vor allem in der Breite viele neue Einsatzgebiete und können je nach Anwendungsfall dank fortschrittlicher Analysemethoden entscheidende Einblicke in das NutzerInnenverhalten geben.
Kontakt:
Adsata
Jonas Kühl
Jonas.kuehl@adsata.com
www.adsata.com
[1] Eye-tracking: A comprehensive guide to methods, paradigms and measures, Lund Research Institute (2017) https://www.researchgate.net/publication/323779800_Eye-tracking_A_comprehensive_guide_to_methods_paradigms_and_measures
[2] Eine gute Übersicht über Usability-Probleme, die sich aus Eyetracking-Daten ablesen lassen, findet sich hier: https://openaccess.city.ac.uk/id/eprint/3917/1/
[3] Hier sei nur beispielsweise das Unternehmen Oculid (www.oculid.com/) genannt
08.03.22