III Spezielle Themen brauchen innovative Methoden
10. Überprüfen von Gebärdensprachkompetenz mittels automatischer Gebärdenspracherkennung
Tobias Haug, Prof. Dr.
Im Rahmen des SNF-Sinergia-Projektes SMILE2 wurde ein automatisches Assessment- und Feedbacksystem für die Deutschschweizerische Gebärdensprache (DSGS) entwickelt. Das Projekt bestand aus einem Konsortium von drei Hochschulen bzw. Forschungsinstitutionen. In diesem Beitrag wird die Forschung vorgestellt, die an der Interkantonalen Hochschule für Heilpädagogik (HfH) in Zürich durchgeführt wurde. Diese bestand aus (a) einer Erhebung und linguistischen Analyse von Daten der DSGS von gehörlosen und hörenden Gebärdensprachbenutzer*innen, (b) einer Untersuchung zum Entscheidungsprozess von gehörlosen Auswerter*innen bei der Beurteilung eines Vokabelproduktionstests, (c) einer Analyse von Fehlern in den DSGS-Produktionen erwachsener Lernender und (d) der Entwicklung und Evaluation eines webbasierten Vokabelverständnistests.
Einleitung
Die Modalität von Gebärdensprachen, die Rezeption über das Auge und die Produktion unter Verwendung der Hände, der Kopfstellung, der Mimik, und des Oberkörpers erfordert sowohl für das Erlernen als auch für das Erforschen von Gebärdensprachen ein Minimum an technischer Infrastruktur. Während vor rund 20 Jahren VHS-Videokassetten das Standardspeichermedium für Gebärdensprachdaten in der Lehre waren, wird heute im Studienalltag primär mit Laptopkameras aufgenommen. Die Daten werden lokal oder auf externen Speichermedien gesichert. Der technische Fortschritt der letzten 20 Jahre hat nicht nur dazu beigetragen, dass z. B. Speicherplatz für Daten günstiger geworden ist, sondern auch, dass Webcams von Laptops oder Smartphones auch bei ungünstigen Lichtverhältnissen zufriedenstellende Videoaufnahmen liefern – eine wichtige Grundlage für die Praxis und Forschung, um die es in diesem Beitrag geht. Gebärdensprachtechnologien, d. h. die automatische Erkennung, Übersetzung und Animation von Gebärdensprache (Ebling, Camgöz & Bowden, 2021) sind nicht nur ein Thema im Hinblick auf die Entwicklung assistiver Technologien, sondern werden auch für die Gebärdensprachlehre und das Überprüfen von Gebärdensprachkompetenz immer relevanter.
In diesem Beitrag werde ich den Fokus auf Studien legen, die zu einem automatischen Assessment- und Feedbacksystem beigetragen haben. Des Weiteren werde ich auf die Verwendung der Open-Source-Software LimeSurvey für die (Selbst-)Überprüfung von Gebärdensprachkompetenz eingehen. Beide Themen wurden in dem vom Schweizerischen Nationalfonds geförderten SNF-Sinergia-Projekt SMILE (Scalable Multimodal sign language Technology for sIgn language Learning and assessmEnt) bearbeitet. Das SMILE-Projekt wurde von einem Konsortium von drei Hochschulen bzw. Forschungsinstitution (Idiap Research Institute, Martigny; University of Surrey, GB; HfH) von 2016 bis 2020 durchgeführt. Zielgruppen des Assessment- und Feedbacksystems sind erwachsene hörende, gehörlose und hörbehinderte Lernende der DSGS, die diese Sprache als Zweit- bzw. Fremdsprache erwerben.
Ergebnisse und Diskussion
Eine allgemeine Gebärdensprachkompetenz kann in einem Kompetenzmodell wie in dem Gemeinsamen Europäischen Referenzrahmen für Sprachen (GER, Council of Europe, 2020) abgebildet oder in Modellen zur kommunikativen Sprachkompetenz (z. B. Bachman, 1990) beschrieben werden. Sprachkompetenz, unabhängig davon, ob es sich um Gebärden- oder Lautsprachen handelt, setzt sich in der Regel aus unterschiedlichen Teilkompetenzen zusammen, wie beispielsweise der Grammatik, dem Vokabular, der Aussprache, oder dem Redefluss. Für das SMILE-Projekt haben wir uns auf die Teilkompetenz des Vokabulars (Einzelgebärden) konzentriert, genauer gesagt: nur auf die manuellen Komponenten von Einzelgebärden3). Wir haben uns für diese linguistische Ebene entschieden, da die automatische Gebärdenspracherkennung zu Beginn des Projekts noch nicht so weit entwickelt war, um z. B. auf Satzebene Gebärden erkennen zu können. Ein weiterer Grund war, dass das Wortschatzwissen ein wichtiger Bestandteil einer allgemeinen Sprachkompetenz ist (Read, 2000). Unseres Wissens nach ist SMILE das erste Projekt weltweit, das automatische Gebärdenspracherkennung für die Überprüfung von Teilaspekten einer allgemeinen Gebärdensprachkompetenz angewendet hat.
Das Assessment- und -Feedbacksystem von SMILE musste mit realen Daten «trainiert» werden, um automatisch eine Entscheidung treffen zu können, ob eine von einer oder einem Lernenden produzierte Gebärde «richtig» oder «falsch» ist. Diese Trainingsdaten bestanden aus Videoaufnahmen (von ca. 100 Gebärden) von 11 gehörlosen und 19 hörenden Gebärdensprachbenutzer*innen (Ebling et al., 2018). Die Proband*innen führten jede der ungefähr 100 Gebärden dreimal aus. Die Aufnahmen wurden im Anschluss von zwei gehörlosen und einer hörenden linguistisch geschulten Expert*innen analysiert und sechs verschiedenen Kategorien zugeordnet (s. Tabelle 10.1). Diese sechs Kategorien wiederum wurden einer Testentscheidung (richtig oder falsch) zugewiesen. Parallel dazu wurde die Information festgehalten, welche der manuellen Komponenten nicht korrekt produziert wurde(n) (z. B. Handform oder Ausführungsstelle einer Gebärde).
Gleiches Lexem wie Zielgebärde | Bedeutung gleich? | Form gleich? | Einschätzung Test | Beispiel | |
---|---|---|---|---|---|
1 | ja | ja | ja | korrekt | SPRACHE_1A |
2 | ja | ja | leicht anders | korrekt, kleine (erlaubte Variation) | SPRACHE_1A’loc |
3 | ja | ja | nein | inkorrekt | SPRACHE_1A’hdf (Handform inakzeptabel) |
4 | ja | leicht anders | leicht anders | korrekt, morphophonemische/semantische Variante | SPRACHE_1A’mov|fnkt:plural, ICH-FRAGE-DICH, DU-FRAGST-MICH |
5 | nein | ja | nein | korrekt, Dialektvariante | SPRACHE_2B (andere Gebärde für Sprache) |
6 | nein | nein | nein | inkorrekt | BAUM_1A (Gebärde für anderes Konzept) |
Diese Grundlagen, die im Rahmen des SMILE-Projekts erarbeitet wurden, haben nicht nur unseren analytischen Blick auf die DSGS geschärft, sondern auch gezeigt, dass dieses Wissen relevant ist für die Schulung von Auswerter*innen. In einer Anschlussstudie wurden die Produktionen von zusätzlich 20 erwachsenen DSGS-Lernenden durch zwei Auswerter*innen evaluiert (Haug, Ebling, Boyes Braem, Tissi & Sidler-Miserez, 2019). Eine statistische Auswertung zeigte, dass die Übereinstimmung zwischen den beiden Auswerter*innen grundsätzlich sehr hoch war. Es gab allerdings auch einzelne Fälle, in denen sie die DSGS-Produktionen unterschiedlich beurteilten (Batty & Haug, 2020). In einem nachfolgenden Interview wurden diese Fälle thematisiert. Die Ergebnisse zeigen, dass beide Auswerter*innen das Kriterium, ob eine Gebärde als richtig oder falsch zu beurteilen ist, unterschiedlich streng angewendet hatten. Im Laufe des Interviews zeigte sich, wie wichtig es ist, zu verstehen, wie dieses Kriterium zu interpretieren und anzuwenden ist. Solches Wissen muss in Zukunft vermehrt in Schulungen für Auswerter*innen einfliessen.
Eine weitere Studie des SMILE-Projektes beschäftigte sich mit der Frage, welche der manuellen Komponenten (Handform, Ausführungsstelle, Bewegung, Handstellung) von Gebärden die grösste Herausforderung für erwachsene DSGS-Lernende darstellt (Ebling, Tissi, Sidler-Miserez, Schlumpf & Boyes-Braem, 2021). Um dieser Frage nachzugehen, wurden die Daten der 19 hörenden Gebärdensprachbenutzer*innen aus der oben beschriebenen Studie bezüglich der Fehlerarten in den manuellen Komponenten analysiert. Am meisten Fehler fanden sich im Zusammenhang mit der manuellen Komponente Bewegung, gefolgt von Ausführungsstelle, Handstellung und Handform. Warum ist Bewegung am schwierigsten zu produzieren bzw. warum treten dort die meisten Fehler auf? Ebling, Tissi, Sidler-Miserez, Schlumpf und Boyes-Braem (2021) geben als mögliche Erklärung die Komplexität von Bewegungen an, d. h. das gleichzeitige Zusammenspiel von mehreren Faktoren wie Grösse, Form (z. B. kreisend, geradeaus) und Richtung (vom Körper weg, zum Körper hin). Forschungen wie diese helfen uns, besser zu verstehen, welche Schwierigkeiten beim Erlernen einer Sprache in einer neuen Modalität auftreten können. Aspekte des Erwerbs der DSGS als Zweit- oder Fremdsprache werden wir im Rahmen des SMILE-II-Projekts, welches Anfang 2021 startet, weiter verfolgen, indem wir die Sprachdaten von Lernenden der DSGS systematisch sammeln und damit einen Korpus aufbauen.
In einer weiteren Studie im Rahmen des SMILE-Projekts wurde ein sogenannter Ja-Nein-Vokabelverständnistest online mit der Open-Source-Software LimeSurvey umgesetzt (Haug & Ebling, 2019). Grundlage für die Aufgaben dieses Tests waren die rund 100 Gebärden, die auch für das automatische Assessment- und Feedbacksystem verwendet wurden. Die Methode eines Ja-Nein-Tests stammt aus der Sprachtestforschung für gesprochene Sprachen (Beglar & Nation, 2013) und wurde im Rahmen des SMILE-Projekts zum ersten Mal auf Gebärdensprachen übertragen (Haug, Ebling, Boyes Braem, Tissi & Sidler-Miserez, 2019). Bei einem Ja-Nein-Test werden erwachsenen Lernenden DSGS-Gebärden gezeigt (Abbildung 10.1). Sie sollen angeben, ob sie die Gebärden kennen oder nicht.
Ja-Nein-Tests werden häufig eingesetzt, um das Vokabelverständnis einer Sprache zu überprüfen. Diese Testmethode ist in der Fachliteratur dafür kritisiert worden, dass sie nicht valide ist. Diese Kritik ist ein Stück weit nachvollziehbar: Es kann sein, dass Lernende Gebärden, die sie nicht kennen, als bekannt angeben und damit ihr Wissen überschätzen (Read, 2000). Um dieses Argument etwas zu entkräften, werden sogenannte «Pseudo-Wörter» in Ja-Nein-Tests für gesprochene Sprachen hinzugefügt (z. B. für Englisch: Mochida & Harrington, 2006), d. h. Wörter, die eine phonetisch plausible Form im Englischen haben, aber keine Bedeutung tragen. Das gleiche Konzept lässt sich auf Gebärden übertragen: Es werden Gebärden mit einer phonetisch plausiblen Form verwendet, die aber keine Bedeutung haben. Der Ja-Nein-Test für die DSGS bestand aus rund 100 echten Gebärden und etwas mehr als 20 Non-Sense-Gebärden, dem gebärdensprachlichen Äquivalent zu Pseudo-Wörtern (Mann, Marshall, Mason & Morgan, 2010). Für den Kontext der Studie von Haug, Ebling, Boyes-Braem, Tissi und Sidler-Miserez (2019) wurde der Test von Lernenden zur Selbstüberprüfung eingesetzt. Er diente nicht dem Ziel, das Vokabularverständnis der Lernenden zu überprüfen. Der Ja-Nein-Test zeigte in einer ersten Auswertung gute Ergebnisse, u. a. gab es eine starke Korrelation (, s. Tabelle 10.2) mit einem Vokabelproduktionstest, bei dem die gleichen Gebärden überprüft wurden (Haug, Ebling, Boyes Braem, Tissi & Sidler-Miserez, 2019).
Auswerter*innen | Pearson’s r (r) | p |
---|---|---|
Auswerter*in 1 | 0.811 | .001 |
Auswerter*in 2 | 0.867 | .001 |
Von grossem Interesse für uns war die Verwendung eines webbasierten Testformats, umgesetzt mit der Open-Source-Software LimeSurvey (Haug & Ebling, 2019). LimeSurvey ist eigentlich ein Instrument für die Erstellung von Umfragen und ist nicht für das Testen ausgelegt. Für den Zweck dieser Studie wurden aus den vorhandenen Frageformaten von LimeSurvey Ja-Nein-Fragen verwendet. Die Einbindung von Videos ist bei LimeSurvey ab der Version 2.7 unproblematisch (LimeSurvey wurde kürzlich auch bei einem Multiple-Choice-Test für die DSGS verwendet, Haug & Mann, 2020). Die Teilnehmenden nahmen unter anderem am Ja-Nein-Test teil und füllten anschliessend noch einen Feedback-Fragebogen aus. Wir erhofften uns dadurch, Informationen über die Testmethode (Ja-Nein-Test) und das webbasierte Format zu erlangen. Die Rückmeldungen werden dazu beitragen, dass in Zukunft folgende Änderungen beim webbasierten Ja-Nein-Test umgesetzt werden:
- Nachdem die Lernenden per Klick angeben, ob sie die jewelige Gebärde kennen oder nicht, soll die deutsche Übersetzung der Gebärde angezeigt werden (als Bestätigung, ob die Gebärde richtig verstanden wurde).
- Die Lernenden erhalten am Schluss einen Bericht über ihr GER-Niveau.
- Es wird geprüft, ob die Anzahl der Aufgaben reduziert werden kann (momentan rund 125 Aufgaben mit Non-Sense-Gebärden), da es gerade für Anfänger*innen recht anstrengend ist, den ganzen Test durchzuführen.
- Am Anfang sollten die Lernenden darüber informiert werden, auf welches GER-Niveau der Ja-Nein-Test abzielt.
Diese Studie gab uns Rückmeldung zur Verwendung der webbasierten Version des Ja-Nein-Tests für die DSGS und Hinweise darauf, inwiefern das Testformat in Zukunft überarbeitet werden sollte.
Ausblick
In diesem Beitrag haben wir unterschiedliche Studien vorgestellt, die im Rahmen des SMILE-Projekts an der HfH durchgeführt wurden. Die Erkenntnisse aus den unterschiedlichen Studien haben
- dazu beigetragen, dass sich unser linguistisches Wissen über die DSGS erweitert hat und dieses Wissen in die Forschung und die praktische Anwendung von Gebärdensprachtests eingeflossen ist;
- uns die Fehlerarten bei Gebärdenproduktionen von erwachsenen DSGS-Lernenden und die Schwierigkeiten beim Erwerb einer Gebärdensprache aufgezeigt und
- uns Rückmeldung zur Eignung der angewendeten Testmethoden (z. B. Ja-Nein-Test) und -formate (webbasiert) gegeben.
Die Grundlagen, die in diesem Projekt erarbeitet wurden, werden im SMILE-II-Projekt verwendet, welches im Januar 2021 gestartet ist. Das automatische Assessment- und Feedbacksystem des SMILE-Projekts wird auf der einen Seite zu einer Online-Selbstüberprüfung weiterentwickelt, die von zu Hause aus durchgeführt werden kann, und auf der anderen Seite um Tests auf der Satzebene erweitert. Im ersten Szenario können die Lernenden von zu Hause aus ihre Kenntnisse der DSGS-Gebärden überprüfen: Sie gebärden in die Webcam des Computers, das Video wird zur Beurteilung an einen Server geschickt und die Lernenden erhalten daraufhin eine Rückmeldung, ob sie die Gebärde korrekt produziert haben bzw. welche manuellen Komponenten nicht korrekt produziert wurden.
Im zweiten Szenario ist die Anwendung der automatischen Erkennung auf der Satzebene der DSGS vorgesehen, d. h. das System soll sowohl die manuellen als auch die nicht-manuellen Komponenten der produzierten Sätze erkennen und in der Lage sein, Rückmeldung zu geben – beides ist aus technischer und linguistischer Sicht eine Herausforderung. Des Weiteren können die entwickelten Technologien für zusätzliche Benutzergruppen angewendet werden. Während bisher die primäre Zielgruppe hörende erwachsene Lernende der DSGS waren, könnten in Zukunft auch gehörlose Kinder und Jugendliche im Kontext Schule davon profitieren oder gehörlose Menschen, deren primäre Sprache nicht eine Gebärdensprache ist.
Methodik
Entwicklung der Testaufgaben
Für die Entwicklung von Vokabulartests für gesprochene Sprachen (bzw. gut dokumentierte Sprachen wie Englisch) gibt es Wortlisten, die den unterschiedlichen Referenzniveaus des GER zugeordnet sind (z. B. Laufer, Elder, Hill & Congdon, 2004). Vergleichbare sprachliche Ressourcen stehen für die meisten Gebärdensprachen und im Speziellen für die DSGS nicht zur Verfügung. Die Grundlage für die Auswahl bzw. Entwicklung der Testaufgaben (Einzelgebärden) waren Lehrmaterialien der DSGS (Boyes Braem, 2004a, 2004b, 2005a, 2005b). Die Anzahl der in den Lehrmaterialien der DSGS verfügbaren Gebärden belief sich auf etwa 3800 (Boyes-Braem, 2001). Um diese Zahl auf rund 100 Gebärden zu reduzieren, wurden u. a. die folgenden linguistischen Kriterien angewandt (Ebling et al., 2018):
- Entfernen von Namensgebärden (z. B. Charlie Chaplin, Namen von Institutionen (z. B. SGB-FSS, HfH) und Orten (z. B. Ländernamen)), da viele aus anderen Gebärdensprachen entlehnt sind.
- Entfernen von Gebärden, die Körperteile (z. B. Nase) bezeichnen, da sie häufig durch das Zeigen auf den entsprechenden Körperteil (Nase der Person, die gebärdet) realisiert werden.
- Entfernen von Pronomen (z. B. du), da sie durch Zeigegebärden realisiert werden.
- Entfernen von Zahlengebärden, da es hier häufig regionale Varianten gibt.
- Entfernen von alten Gebärden, die jüngere Personen nicht kennen.
- Entfernen von Gebärden, die (zum Teil) mit dem Fingeralphabet produziert werden (z. B. die Gebärde JANUAR).
- Entfernen von zusammengesetzten Gebärden wie ABENDESSEN (setzt sich aus den Gebärden ABEND und ESSEN zusammen, die einzelnen Gebärden sind bereits in dem Pool der 3800 Gebärden enthalten).
- Entfernen von Gebärden, die in weniger als vier der fünf DSGS-Dialekten vorkommen.
- Entfernen von manuellen Homonymen, d. h. von Gebärden wie BRUDER, SCHWESTER und GLEICH, die sich nur durch ein anderes Mundbild unterscheiden, da der Pool von Gebärden für das SMILE-Projekt eine möglichst grosse Vielfalt an Gebärden beinhalten sollte.
Diese rund 100 Gebärden bildeten die Grundlage für die weiter oben diskutierten Studien. Eine ausgeglichene Auswahl an Gebärdenarten wie Nomen oder Verben konnte nicht berücksichtigt werden, wie dies häufig bei der Auswahl von Aufgaben für einen Vokabulartest für gesprochene Sprachen der Fall ist. Dies lag daran, dass die Frage, ob die Konzepte von Wortarten, wie sie für gesprochene Sprachen angewendet werden, gleichermassen auf Gebärdensprachen übertragen werden können, noch nicht abschliessend beantwortet ist (z. B. Erlenkamp, 2001).
Entwicklung des Auswertungsinstruments für einen Vokabelproduktionstest
Für die weiter oben dargestellte Studie, bei der zwei Auswerter*innen die Daten eines Vokabelproduktionstests von 20 Lernenden ausgewertet haben, wurde ein Auswertungsinstrument entwickelt (Haug, Ebling, Boyes Braem, Tissi & Sidler-Miserez, 2019). Grundlage dafür war die linguistische Analyse der DSGS-Produktionen, die in sechs Kategorien eingeteilt wurden (vgl. Tabelle 10.1). Grundsätzlich ist es bei der Entwicklung von Auswertungsinstrumenten für Sprachtests wichtig, (a) eines oder mehrere Kriterien zu definieren, die zur Beurteilung herangezogen werden sollen, und (b) festzulegen, ob eine Zweier-Skala (richtig/falsch) oder eine Skala mit mehreren Abstufungen herangezogen werden soll (Bachman & Palmer, 1996). Das Auswertungsinstrument wurde mit Excel umgesetzt.
Grundlagen der automatischen Erkennung und Beurteilung
Für die Entwicklung des automatischen Assessment- und Feedbacksystems wurden auf der linguistischen Ebene Kriterien geschaffen (Ebling et al., 2018), nach denen eine Gebärde als «richtig» oder «falsch» einzustufen ist.
Das Gebärdenspracherkennungssystem (Abbildung 10.2) muss in der Lage sein, die phonetische Form einer Gebärde zu erkennen und einen Abgleich mit einer Referenz vorzunehmen, um dann den Lernenden eine Rückmeldung zu geben. Für den Abgleich mit einer Referenz wurde das System mit transkribierten und annotierten Gebärdensprachdaten trainiert.
Danksagung
Der Dank geht an alle Projektmitarbeitenden an der HfH: Penny Boyes Braem, Sarah Ebling (Projektleitung), Sandra Sidler-Miserez und Katja Tissi. Des Weiteren möchten wir auch allen hörenden und gehörlosen Studienteilnehmer*innen und Expert*innen für ihre Mitarbeit danken. Das SMILE-Projekt wurde vom Schweizerischen Nationalfonds gefördert (Projektnummer: 160811).
Bibliografie
- (Scalable Multimodal sign language Technology for sIgn language Learning and assessmEnt)↩︎
- Einzelne Gebärden setzen sich aus manuellen Komponenten (Handform, Handstellung, Ausführungstelle und Bewegung) und nicht-manuellen Komponenten (z. B. Mimik, Blick, Kopfstellung, Oberkörper) zusammen (Boyes Braem, 1995)↩︎