Mit Algorithmen gegen die Textflut

Spezielle Software verringert den Leseaufwand für trockene Fachliteratur oder Gesetzestexte erheblich.
Spezielle Software verringert den Leseaufwand für trockene Fachliteratur oder Gesetzestexte erheblich.(c) Foto Begsteiger / foto-begsteige (Foto Begsteiger KEG)

Es gibt Vergnüglicheres als das Lesen überlanger Texte in Fachsprache. Eine Software von Wiener Forscherinnen nimmt ihnen den Schrecken, sie filtert inhaltliche Essenzen heraus.

Dicke Sammlungen von Rechtstexten sind nicht ihr Fall. Das will Karolin Winter klargestellt haben. Es gibt eine Welt, die sie mehr fesselt als die der Verordnungen und Richtlinien, der Normen und Regulative. Es ist die der Mathematik, die sie liebt, nicht erst seit ihrem Studium in Regensburg. Doch eine nicht zu bändigende Freude am Programmieren führte sie vor ein paar Jahren an die Uni Wien, genauer an die Fakultät für Informatik. Dort waren sie plötzlich ein Thema, die viele Hunderte Seiten starken Texte, die Betrieben einen rechtlichen Rahmen setzen. Die verschriftlichten Regelwerke für Prozesse oder Arbeitsanweisungen.

Zunächst war die Fragestellung im vom Wiener Technologiefonds (WWTF) geförderten Projekt Crisp eher technischer Natur: Wie lassen sich in Fabriken Produktionslayouts finden, die eine signifikant schnellere Fertigung unterschiedlicher Varianten von Waren ermöglichen? In der Forschungsgruppe Workflow Systems and Technology, der die Informatikerin Stefanie Rinderle-Ma vorsteht, entstanden dazu einige vielversprechende Ansätze. Erkannt wurde aber auch, dass die schnelle Neuanordnung einer Produktionslinie nur unter einer Bedingung funktioniert: „Die Verantwortlichen dürfen nicht stundenlang beim Studium der Prozessanweisungen festhängen“, sagt Rinderle-Ma.

 

Twitter als Vorbild

Es war also an Karolin Winter, aus schwerer Lesekost eine leichtere zu machen. Und zwar rein vom Umfang her. Die EU-Datenschutz-Grundverordnung (DSGVO) ist auch so ein Fall. 138 Seiten stark ist der Leidensdruck bei allen, die sich mit der spröden Materie befassen und Rechercheaufwand treiben müssen. Nicht jeder ist der geborene Datenschutzbeauftragte. Hier ein Instrument zu schaffen, das auf Knopfdruck etwa nur Informationen preisgibt, die explizit Unternehmen mit österreichischem Sitz betreffen, war ein Ziel – Anfang 2017 legte Winter los. Im ersten Schritt stellte sie gängige Methoden des Text Mining auf die Probe. Als Faustregel dieser Gruppe von Analyseverfahren, die Tendenzen und Zusammenhänge einfangen, gilt: Je mehr Kurzdokumente der Algorithmus durchforsten kann, umso leichter hat er es mit dem Finden von Bedeutungsstrukturen.

Ein gefundenes Fressen sind Social-Media-Dienste wie Twitter. Dort ist das Meinungsbild über Donald Trumps Außenpolitik aufgrund der Nutzerdichte und Textkürze schnell ermittelt. Und ebenso schnell in einer Schlagwortwolke – einer Visualisierungsform, die die häufigsten Worttreffer am größten darstellt – abgebildet. Schwieriger wird es bei einem sehr großen Einzeldokument. Winters Erkenntnis nach den ersten Testläufen mit der DSGVO und einer Sammlung von Normen zur IT-Sicherheit: „Für ähnliche Erfolgsraten wie bei Texten aus sozialen Medien müssen wir die großen Dokumente in eine Vielzahl kleinerer zerlegen“, sagt sie.

Praktiker aus dem IT-Bereich halfen bei der Feinjustierung des Tools. Erhoben wurde, bis zu welchem Grad eine Reduktion der Textmenge ohne Informationsverlust erreichbar ist.

Dem Ziel, nur mehr in den Lesegenuss der relevanten Sätze zu kommen, rückte man ein großes Stück näher: In der DSGVO gelang es, bei Suchtermini wie „Personendaten“ oder „Natürliche Person“ den Leseaufwand um 50 bis 70 Prozent zu verringern.

 

Aufpolierte Optik

Auswerfen kann der Softwareprototyp, der auf ein Synonymlexikon zugreift, die Ergebnisse in Sekundenschnelle. Auch an der einfachen Bedienbarkeit des Tools schraubten die Wienerinnen. Etwa, wenn Textpassagen anderen inhaltlich zuwiderlaufen. „Die Software markiert Widersprüche dann direkt im Text“, sagt Stefanie Rinderle-Ma. Jetzt feilt man noch an der Optik des Tools. Denkbar ist, das Ursprungsdokument mit Textwolken zu überlagern. Und dann sind da noch die Szenarien der wandelbaren Fabrik, an die Karolin Winter immerzu denkt. Die Textminiaturen in Form von strukturierten Anweisungen so darzustellen, dass sie künftig auch für Maschinen und ihre Software leicht interpretierbar sind, sei das nächste Ziel, sagt sie.

IN ZAHLEN

12 Monate dauert im Schnitt die Umsetzung der gängigen internationalen IT-Sicherheitsnorm ISO-27001. Diesen zeitlichen Aufwand könnte Textanalyse-Software reduzieren.

10.000 Euro nehmen Kleinbetriebe für die Umsetzung der Datenschutz-Grundverordnung (DSGVO) in die Hand, Konzerne kostet sie Millionen. Text-Mining-Software soll den Rechercheaufwand um bis zu 70 Prozent senken.