Wissenschaft

Dialekt aus dem Computer

Computer-Avatare lernen, im Dialekt von Bad Goisern und Innervillgraten zu sprechen.

Realer Sprecher oder computergenerierte Stimme? Wird Standardsprache gesprochen, hört man kaum mehr einen Unterschied. Spricht die synthetische Stimme jedoch Dialekt, sind Mensch und Maschine gut auseinanderzuhalten. Speziell grafische Stellvertreter (Avatare) wirken wegen der Trennung von Dialektsprache und Mimik unrealistisch. Dem Informatiker Michael Pucher vom Forschungszentrum Telekommunikation Wien (FTW) gelang es gemeinsam mit der Phonetikerin Sylvia Moosmüller vom Institut für Schallforschung der ÖAW, die Qualität der Sprachsynthese von Dialekten zu verbessern. 2007 begann man mit der Synthetisierung von Dialekt: dem Wienerischen. Derzeit konzentrieren sich die Forscher auf zwei sehr unterschiedliche Dialekte, die in Bad Goisern bzw. in Innervillgraten in Osttirol beheimatet sind (FWF-Projekt: Adaptive Audio-Visuelle Sprachsynthese von Dialekten „AVDS“).

„Das Besondere daran ist, dass wir uns mit der Dialektsynthese beschäftigen und dass wir in dem Projekt für den Synthesizer-Prototyp erstmals Audio- und visuelle Ebene gemeinsam modelliert haben“, erklärt Pucher.

Derzeit sei Standarddeutsch die Regel. Am FTW wurde der erste kommerzielle Sprachsynthesizer für österreichisches Deutsch entwickelt, der derzeit vom Bundes-Blindenerziehungsinstitut und der Österreichischen Post AG, für die Website der Stadt Wien und von Einzelpersonen genutzt wird.

Avatare bewegen nicht nur Lippen. Für den Forscher besitzen aber auch Dialekt-Synthesizer wie der Prototyp für Innervillgratisch durchaus Potenzial. Dafür modellierte Puchers Forschungsgruppe erstmals die Audio- und visuelle Ebene gemeinsam, denn jeder Sprecher bewegt sich anders während des Sprechens: Während die Dialektsprecher den Text vorlasen, wurden deren dialekt- und personenspezifischen Bewegungen der unteren Gesichtshälfte und des Kopfes mittels Markern aufgezeichnet. Diese Punktbewegung, ohne der des Kopfes, wurde dann synthetisiert. Werden Sprache und Mimik gleichzeitig betrachtet, stimmen die beiden Ebenen stark überein, wodurch sich laut Pucher die Sprachsynthese verbessere, sagt Pucher: „Eine künstliche Person wie ein Avatar wirkt realistischer und lässt sich besser ansteuern.“

Spricht der Avatar mittels Dialekt-Synthesizer nun einige innervillgratische Worte, bewegt sich synchron zur Sprache die gesamte untere Gesichtshälfte individuell. Die sprachlichen Ausdrucksmöglichkeiten dieser Avatare basieren laut Moosmüller „auf je rund 700 Sätzen, die von vier Dialektsprechern pro Dialekt beiderlei Geschlechts im Labor vorgelesen und akutisch sowie visuell aufgenommen wurden. Daraus wurde für beide Dialekte ein rund 70 Laute umfassendes Phonset entwickelt, das die Grundlage für die Synthese bildet.“

Der Unterschied zwischen realem Dialektsprecher und dem Dialekt-Avatar ist nun weit weniger markant – so manche Eigenheit von gesprochenem Dialekt stellt die Forscher allerdings vor weitere Aufgaben.

Lexikon

Adaptive Sprachsynthese basiert auf einem Durchschnittsmodell, das durch neue Sprachdaten adaptiert wird.

Ein Phonset umfasst sprachliche Intentionen (Phoneme) und häufige phonetische Realisierungen (Phone).

Output zwischen der Sprachsynthese und realem Dialekt ist zentral. Verläuft etwa die l-Vokalisierung graduell wie bei „Tulpe“ und „Tuipen“, ist ein kontinuierlicher Übergang synthetisierbar.

("Die Presse", Print-Ausgabe, 20.07.2014)

Lesen Sie mehr zu diesen Themen:

Wissenschaft