# taz.de -- Stimmensimulator und Fake Voices: In den Mund gelegt
       
       > Mit nur wenig Ausgangsmaterial lässt sich bald jede Stimme überzeugend
       > nachbauen. Fake Voices könnten zu einem Problem werden.
       
 (IMG) Bild: Um nicht Opfer eines Stimmsimulators zu werfen, hilft nur: schweigen
       
       Wenn Nitesh Saxena über die Technologie spricht, die er erforscht, kommen
       die positiven Aspekte ziemlich kurz. Sie könnte Menschen, die keine Stimme
       mehr haben, eine geben, das schon. Aber der Wissenschaftler von der
       University of Alabama at Birmingham spricht dann doch wieder schnell von
       den Gefahren, die von den Fake Voices ausgehen.
       
       Eine kurze Aufnahme, mehr braucht es bald nicht mehr, um jede menschliche
       Stimme zu generieren – und sie sagen zu lassen, was man will. Bisher waren
       dazu große Mengen Daten nötig, stundenlange Sprachaufnahmen, um die
       Software zu trainieren. Trotzdem habe das Ergebnis meist wie ein Roboter
       geklungen, sagt Saxena. „Die aktuelle Technologien arbeiten etwas anders.“
       Anstatt eine Stimme von Grund auf neu zu modellieren, interessiert sich das
       System für die Unterschiede zwischen zwei Stimmen. Es wandelt dann die eine
       Stimme in die andere um, übernimmt so zum Beispiel die Intonation. Das
       bedeutet, dass schon mehrere kurze Sätze als Trainingsmaterial ausreichen.
       
       Das hat auch das Interesse von Unternehmen geweckt. Das kanadische Start-up
       Lyrebird zum Beispiel behauptet, ihre Digital Voice brauche nur eine Minute
       Aufzeichnungen als Ausgangsmaterial. In Hörproben des Unternehmens kommen
       unter anderem „Donald Trump“ und „Barack Obama“ zu Wort. Die berühmten
       Politiker sind eindeutig zu erkennen und klingen besser als so mancher
       Stimmimitator in der Morningshow eines Lokalradios. Doch Trump klingt
       trotzdem etwas flach und „digital“, wenn sein Lyrebird-Ego über Nordkorea
       spricht. Das ist besonders auffällig, wenn man sich viele Beispiele anhört.
       
       Man kann die Software von Lyrebird auch selbst testen. Dazu muss man
       mindestens eine Minute Sprachmaterial bereitstellen, also Sätze wie:
       „Andreas placed the shell against his ear so he could hear the ocean“
       einsprechen. Dann braucht die Software ein paar Minuten, und anschließend
       kann man Sätze eintippen und sie sich dann selbst vorlesen hören. Täuschend
       echt klingt allerdings anders. „Sollst du das sein?“, fragt mein Freund.
       Ich höre mich wie mein angetrunkenes Roboter-Ich an.
       
       Aber, sagt Lyrebird, je mehr Material man zur Verfügung stellt, desto
       genauer wird das Ergebnis. (Mit amerikanischem Akzent soll es am besten
       funktionieren.) In Zukunft, sind sich Experten sicher, werden die
       Sprachgeneratoren immer besser, die Stimmen, die sie erzeugen immer
       überzeugender. „Die Fähigkeiten der Menschen, sie zu erkennen, werden sich
       aber nicht verbessern“, sagt Saxena.
       
       ## Nicht nur Menschen lassen sich täuschen
       
       Schon heute sind Menschen nicht in der Lage, gute Fake Voices von echten zu
       unterscheiden. Saxena und seine Kollegen und Kolleginnen haben in einer
       Studie einen von ihnen programmierten Stimmengenerator getestet. Das
       Ergebnis: Nicht nur Menschen lassen sich täuschen, Maschinen fällt es sogar
       noch schwer, die falschen Stimmen zu erkennen. Das bedeutet: Systeme, die
       eine Sprachauthentifizierung nutzen, sind anfällig für Hackerangriffe.
       
       Gedacht waren die Fake Voices am Anfang dazu, Menschen, die durch eine
       Krankheit ihre Stimme verloren hatten, diese wieder zurückzugeben. Stephen
       Hawking würde dann nicht wie ein Roboter klingen, sondern wie er selbst.
       Aber auch zum Beispiel Sprachassistenten könnten so menschlicher wirken.
       Lyrebird schlägt vor, sich mit ihrer Software zum Beispiel Hörbücher in
       einer Stimme der Wahl vorlesen zu lassen. Klingt alles relativ harmlos.
       Aber was, wenn die Technologie – eventuell gekoppelt an ein gefälschtes
       Video – missbraucht wird?
       
       Mit diesem Problem muss sich auch Lyrebird auseinandersetzen. In einem
       Ethik-Statement schreibt die Firma, es sei „unvermeidlich“, dass ihre
       Technologie in ein paar Jahren weit verbreitet sei. Die Frage laute
       deshalb, „wie man sie bestmöglich in die Welt einbringen kann, um das
       Missbrauchsrisiko so weit wie möglich zu vermeiden“. Die Antwort: Indem man
       bei den Menschen ein Bewusstsein für die Existenz der Technologie schaffe
       und sicherstelle, dass niemand meine Stimme ohne mein Einverständnis nutzen
       könne.
       
       Die große Gefahr, sagt Saxena, bestehe darin, dass die Fake Voices dazu
       genutzt werden, um Fake News zu machen. Wann taucht die erste nicht
       gekennzeichnete Aufnahme auf, in der ein vermeintlicher Trump den
       Nordkoreanern den Krieg erklärt? Wie viele werden darauf hereinfallen, was
       werden die Folgen sein? Bisher hat eine Tonaufnahme die Diskussion darüber,
       ob etwas wirklich so gesagt wurde oder nicht, beendet. Das könnte sich bald
       ändern – und zwar nicht nur für Prominente, von denen es bereits reichlich
       Tonmaterial gibt.
       
       ## Sprachauthentifizierung austricksen
       
       „Momentan ist es nicht sehr schwer, von jemandem ein kurzes Stimmensample
       zu bekommen“, sagt Saxena. Von vielen Menschen gibt es bereits frei
       zugängliches Tonmaterial – zum Beispiel auf YouTube. Und wenn es ein
       Angreifer gezielt auf jemanden abgesehen hat, könnte eine heimlich gemachte
       Aufnahme schon reichen, um eine Sprachauthentifizierung zu überlisten. Auch
       für Saxena stellt sich die Frage, wie viel er von sich veröffentlicht:
       „Natürlich will ich, dass meine Vorlesungen online gestellt werden, damit
       sie mehr Menschen erreichen. Gleichzeitig mache ich mich damit angreifbar.“
       
       Der Wissenschaftler hält Aufklärung für das beste Mittel gegen Fake Voices.
       Die Menschen müssten sich bewusst sein, dass die eigene Stimme nicht mehr
       fälschungssicher sei. Sie müssten vorsichtiger sein, wenn sie Dinge online
       posten, aufpassen, was und mit wem sie etwas teilen. Ein einfaches Tool,
       das man herunterladen könne und das eine Aufnahme analysiere, sagt Saxena,
       gebe es derzeit nicht.
       
       Eine gute Nachricht hat Saxena immerhin: Auch wenn Menschen wohl nicht in
       der Lage sind, die Fake Voices zu erkennen, Maschinen sollten zumindest
       besser darin werden. Zum Beispiel, indem sie überprüfen, ob eine Stimme aus
       einem Lautsprecher kommt. Auch dass sich immer mehr Menschen für das Thema
       interessierten, sei hilfreich: „Denn Fake Voices werden uns alle
       betreffen.“
       
       11 Feb 2018
       
       ## AUTOREN
       
 (DIR) Anna Schughart
       
       ## TAGS
       
 (DIR) Spracherkennung
 (DIR) Migration
 (DIR) Apple
 (DIR) Nullen und Einsen
       
       ## ARTIKEL ZUM THEMA
       
 (DIR) Digitale Assistenten beim BAMF: Software soll Dialekte erkennen
       
       Mit einer automatisierten Sprachanalyse will die Behörde die Herkunft von
       Menschen bestimmen. Es gibt Kritik: Sie sei intransparent und
       fehleranfällig.
       
 (DIR) Apples neues iPhone X: Das Sterben der Knöpfe
       
       Beim neuen iPhone gibt's keinen „Home Button“ mehr. Entsperrt wird per
       Gesichtserkennung. Eine Knopfolgie zum Abschied.
       
 (DIR) Kolumne Nullen und Einsen: Wir müssen reden
       
       Der digitalen „Bei dem Quatsch mach ich nicht mit“-Phase entgeht niemand.
       Unser Autor erlebt sie gerade – bei der Sprachsteuerung.