Wie Computer hören lernen

Computer hoeren lernen
Computer hoeren lernen(c) Die Presse (Clemens Fabry)
  • Drucken

Forscher um den Linzer Informatiker Gerhard Widmer untersuchen die Eigenschaften und Strukturen von Musik und wollen mit diesem Wissen intelligente Helfer bauen.

Für Menschen ist es eine ziemlich simple Aufgabe, aus Umgebungsgeräuschen Musik herauszuhören und zu bestimmen, ob es sich z.B. um einen Popsong oder eine Symphonie handelt, ob die Musik langsam oder schnell ist, ob sie fröhlich oder traurig klingt etc. Für Computer hingegen ist das eine wirklich harte Nuss. „Es ist nicht einmal trivial zu bestimmen, ob es sich bei einem Audiostream um gesprochene Sprache oder um Musik handelt“, berichtet der Informatiker Gerhard Widmer. Er leitet das Institut für Computational Perception der Johannes Kepler Universität Linz sowie eine Arbeitsgruppe am Institut für künstliche Intelligenz (OFAI) in Wien. Mit 24 Mitarbeitern versucht er nichts weniger, als Musik zu verstehen – und zwar auf eine Art, dass auch Computer dazu befähigt werden.

„Unser Ohr und das Gehirn sind Mustererkennungsapparate, die in den Schwingungen abstrakte Muster finden“, so Widmer. Solche Strukturen gibt es auf vielen musikalischen Ebenen – beginnend bei Rhythmus und harmonischen Zusammenhängen bis hin zum Aufbau von Musikstücken und typischen Elementen bestimmter Stilrichtungen. Wir Menschen sind dazu von Natur aus bzw. durch unsere Erfahrung in der Lage, Computer müssen hingegen Umwege gehen.

Ausgangspunkt sind Schallwellen, die zuerst in sogenannte „Frames“ zu typischerweise 50 Millisekunden zerlegt werden. Diese werden durch mathematische Methoden, etwa die Fourier-Transformationen, in Frequenzspektren umgewandelt. Dann kommen Methoden der künstlichen Intelligenz ins Spiel, etwa maschinelles Lernen, Mustererkennung oder neuronale Netze. Jedes Frame wird durch 50 Eigenschaften beschrieben, mit statistischen Verfahren können Aussagen über die Musik gemacht werden.


Interpretation. In manchen Bereichen sind derartige „Hör-Algorithmen“ schon recht gut. So schaffen Computer bei der Erkennung von Musik in einem Radiosignal (in dem Klänge oft durch Sprache überlagert sind) eine Trefferquote von 97 Prozent – der Mensch erreicht 98,5 Prozent. Auch bei der Erkennung, ob zwei Musikstücke einander ähnlich sind, sind die Algorithmen aus Linz bereits exzellent (angewendet wurde das z.B. für Musikempfehlungen im FM4-Soundpark), ebenso bei der Bestimmung des Rhythmus – also dem Finden und Zählen des „Beats“: Bei elektronischer oder bei Popmusik gelingt das mit einer Richtigkeit von weit über 90 Prozent. Viel schwieriger ist es bei klassischer Musik – insbesondere bei romantischen Symphonien oder bei gregorianischen Chorälen.

Dieser Unterschied zwischen E- und U-Musik zieht sich durch viele Aspekte der Computational Perception: Denn bei klassischer Musik gibt es typischerweise viel mehr Nuancen, auch hinsichtlich der Interpretation. Dieser Aspekt wird im Magaloff-Projekt untersucht. Widmer fand beim Wiener Klavierbauer Bösendorfer Dateien mit der Gesamtaufnahme der Chopin-Klavierwerke, die der russische Pianist Nikita Magaloff 1989 im Wiener Konzerthaus eingespielt hatte. Das besondere daran: Magaloff musizierte auf einem Computer-Flügel, der Zeitpunkt und Stärke jedes Tastenanschlags aufgezeichnet hat. Diese Daten – Widmer bekam von Magaloffs Witwe die Erlaubnis für Analysen – wurden in jahrelanger Arbeit mit den (337.593) gedruckten Noten verknüpft. So konnte im Detail analysiert werden, wie ein Interpret mit Kompositionen umgeht, wie er ein „Crescendo“ oder ein „Ritardando“ interpretiert, auch wo er schwierige Passagen (durch Weglassen von inneren Stimmen) vereinfacht.

Aus solchen Studien wurde z.B. ein Algorithmus entwickelt, der live zuhört und zum richtigen Zeitpunkt die Noten umblättert – unabhängig davon, ob der Interpret das Stück schnell oder langsam, mit Temposchwankungen oder gespickt mit Fehlern spielt. Mit einem solchen System, einer Art elektronischem Notenpult, ist kürzlich das Wiener Start-up PhonicScore auf den Markt gegangen – diesen Schritt haben drei Absolventen der TU Wien mit Unterstützung der AWS gewagt.

Apropos Interpretation: Computer können bereits ermitteln, ob eine Mozart-Sonate z.B. von Alfred Brendel oder von Friedrich Gulda gespielt wurde. „Das zeigt, dass es so etwas wie einen konsistenten Stil gibt“, so Widmer. Somit können Computer auch programmiert werden, ein Stück mit einem bestimmten Ausdruck zu interpretieren. Bei Wettbewerben – wo sonst als in Japan könnten solche stattfinden? – räumen die Linzer Algorithmen regelmäßig die ersten Preise ab.


Neue Erlebnisse. Eines der großen Ziele Widmers ist der Bau eines umfassenden Musikbegleiters – eines „Complete Classical Music Companion“. Dieser hört live bei der Musik zu, erkennt schon nach wenigen Sekunden das Musikstück, liefert am Bildschirm sofort die richtigen Noten, blättert zeitgerecht um und versorgt den Nutzer mit Informationen über den Komponisten und die Musik. Die dazu nötigen Methoden werden derzeit in vielen Labors auf der Welt – neben Universitäten auch bei Konzernen wie Google, Microsoft oder Sony – (weiter-)entwickelt.

Diese Technologien könnten zudem das Erleben von Konzerten verändern – u.a. mit dem Ziel, an digitale Medien gewöhnte Publikumsschichten für Klassik anzusprechen. Was alles möglich ist, wird in dem neuen EU-Projekt Phenicx ausgelotet (Budget: drei Mio. Euro), in dem die beiden Arbeitsgruppen Widmers mit spanischen und holländischen Forschern sowie dem Concertgebouw-Orchester kooperieren. Ideen gibt es viele: So könnten etwa visuelle Effekte (oder Noten oder Texte) synchron zur dargebrachten Musik eingeblendet werden, Livekonzerte könnten per 360-Grad-Kameras aufgenommen werden, jeder Zuseher kann dann individuell einen Platz im Orchester einnehmen und z.B. die Posaunen hervorgehoben hören oder bestimmte Passagen zum Vergleich auch in anderen Aufnahmen hören.

Zum FORSCHER

Gerhard Widmer, geboren 1961 in Dornbirn, war in seiner Jugend begeisterter Pianist und studierte an der TU Wien Informatik. 2004 wurde er an die Johannes Kepler Universität Linz berufen. Er leitet dort das Institut für Computational Perception, parallel leitet er auch eine Arbeitsgruppe am Österr. Forschungsinstitut für Artificial Intelligence in Wien. 1998 bekam der den Start-Preis, 2009 den Wittgenstein-Preis.

Als Pionier der Erforschung der Wahrnehmung von Musik leitet er eine Reihe von FWF-Projekten, engagiert sich aber auch in der angewandten Forschung (gefördert von der FFG) sowie in EU-Projekten.
Die Ergebnisse seiner Arbeitsgruppe sind mit einigen Patenten geschützt.

("Die Presse", Print-Ausgabe, 05.05.2013)

Lesen Sie mehr zu diesen Themen:


Dieser Browser wird nicht mehr unterstützt
Bitte wechseln Sie zu einem unterstützten Browser wie Chrome, Firefox, Safari oder Edge.