Artikel zum Thema

Deepfakes

Deepfakes: Fälschung und Manipulation von persönlichen Identitäten

Seit Jahren existieren die unterschiedlichsten Verfahren zur Manipulation von medialen Identitäten – seien es Stimmen oder Bilder. Durch die neuen digitalen Methoden der Künstlichen Intelligenz (KI) ist es heutzutage jedoch deutlich einfacher und qualitativ hochwertiger möglich, dynamische Medien wie Videos oder Audiomitschnitte und Bilder zu manipulieren. Im Zusammenhang mit der Verbreitung von sogenannten „Fake News“ und „Desinformationen“ fällt der Begriff „Deepfakes“ in diesem Zusammenhang sehr oft.

UMGANGSSPRACHLICH WIRD DER BEGRIFF „DEEPFAKES“ FÜR VERFAHREN BENUTZT, DIE MITTELS (KI – GENAUER GESAGT DER SUBKATEGORIE DES „DEEP LEARNING“) TIEFER NEURONALER NETZE (ENGLISCH: DEEP NEURAL NETWORKS) EINE VERÄNDERUNG DES ORIGINALS HERBEIFÜHREN.

Von „Deepfakes“ spricht man, wenn es sich um manipulierte Inhalte handelt, in denen Personen Dinge tun oder sagen, die sie nie getan oder gesagt haben. Im Wesentlichen können Videoaufnahmen und Bilder, aber auch Audioaufnahmen und Texte, manipuliert werden. Juristisch gesehen ist die Verbreitung von „Deepfakes“ eine Straftat, da dies zum einen in die Persönlichkeitsrechte der Betroffenen eingreift und zum anderen ggf. weitere Tatbestände vorliegen können.

FÄLSCHUNGSMÖGLICHKEITEN UND DEREN GRENZEN

FÄLSCHUNG VON VIDEOS

Im Bereich der Manipulation wurden in den vergangenen Jahren mehrere Verfahren entwickelt, die entweder das Ziel verfolgen

Gesichter in einem Video zu tauschen (sogenanntes „Face Swapping“),
die (Kopf-)Bewegungen einer Person in einem Video nach eigenen Wünschen zu kontrollieren (sogenanntes „Face Reenactment“) oder
neue Pseudoidentitäten zu synthetisieren.

Im Grunde kann man sich „Deepfakes“ wie eine digitale Maske vorstellen. Neuronale Netze lernen aus einem Gesichtsbild die relevanten Mimik- und Beleuchtungsinformationen kodiert zu extrahieren und erzeugen daraus ein entsprechendes Gesichtsbild. Um das neue Bild so realistisch wie möglich aussehen zu lassen, werden idealerweise viele verschiedene bewegte Bilder benötigt. Mittels 3D-Drucktechnik lassen sich im Bereich des „Face Reenactment“ Modelle erzeugen, die dann mittels Videotechnik kontrolliert die Kopf- und Lippenbewegungen sowie die Mimik nachstellen, um so Personen Aussagen in den Mund zu legen.

FÄLSCHUNG VON STIMMEN

Grundsätzlich lassen sich mit dem TTS-Verfahren („Text-to-Speech“) beliebige Texte in ein Audiosignal umwandeln, die dann von einem System vorgetragen werden, welches im Idealfall sprecherspezifische Charakteristika aufweist. Eine weitere Möglichkeit ist die „Voice Conversion“ also die Umwandlung des Gesagten von Person A in die gleiche Äußerung von Person B, die dies nie gesagt hat. Somit können automatisierte Spracherkennungsverfahren und Personen getäuscht werden. Mit der richtigen Technik werden bereits heute nur wenige Audioaufnahmen benötigt, um dies zu ermöglichen.

FÄLSCHUNG VON TEXTEN

Nur wenige einleitende Worte sind nötig und mittels Textgenerierungsverfahren lassen sich lange zusammenhängende Text schreiben, bei denen nicht erkennbar ist, ob es sich um echte Texte oder mittels KI erzeugte Texte handelt. Die benötigte Rechenleistung und die zugrundeliegenden Textdatenbanken sind heutzutage nicht im Verbraucherbereich zu finden, dennoch wäre es für die Zukunft denkbar, dass so Blogbeiträge, Nachrichten oder Chats generiert werden können. Diese Technologie wird künftig im Bereich der „Social Bots“ und „Chatbots“ immer mehr zum Einsatz kommen.

Sicherheitszeitschrift SICHERHEIT. Das Fachmagazin. (ePaper)

BEDROHUNGSPOTENZIAL DURCH DEEPFAKES

Die Gefahr, die von derartigen „Deepfakes“ ausgeht – insbesondere, wenn sie gut gemacht und nur schwer erkennbar sind – ist immens hoch. Bereits heute ist es für den technisch versierten Laien möglich, derartige „Deepfakes“ zu erstellen. Denkbar wären:

Politische Einflussnahme
Marktbeeinflussung/Desinformationskampagnen
Hervorrufen eines Reputationsschadens
Social Engineering (telefonische Phishing-Angriffe oder Betrugsmaschen wie z. B. CEO-Fraud)
Überwindung biometrischer Systeme (insbesondere im Bereich der Spracherkennung)
Verleumdung
Mobbing
Nutzung im pornografischen Bereich

Die größte Gefahr von „Deepfakes“ besteht aber nicht nur im „Deepfake“ selber, sondern auch darin, dass echte Aufnahmen für gefälscht gehalten werden können. Somit kann es schwer werden, einen Ruf wiederherzustellen oder gar Vertrauen in die Medienberichterstattung zu haben.

DEEPFAKES ERKENNEN

ZUALLERERST IST ES WICHTIG, SICH MIT DEM KONTEXT ZU BEFASSEN, Z. B.:

Ist die Quellenangabe oder Webseite seriös?
Wann und wo ist das Material das erste Mal aufgetaucht?
Stehen die Aussagen im Gegensatz zum typischen Verhalten der Person?

Da die Technik derzeit insbesondere im laienhaften Umfeld noch nicht sehr ausgereift ist, lassen sich „Deepfakes“ im Bereich der Gesichtsmanipulationen beispielsweise

an einer unnatürlichen Mimik,
an einem leeren Blick,
an der Hautfarbe und -textur,
an dem Gesichtsübergang,
an verwaschenen Konturen im Auge und an den Zähnen,
an unnatürlichem Blinzeln,
an merkwürdigen Schattenwürfen und Belichtungen erkennen.

Für den Bereich der Stimmenausgabe können beispielsweise folgende Hinweise auf einen „Deepfake“ hindeuten:

Falsche Aussprache insbesondere im mehrsprachigen Kontext
Monotone Wortbetonung
Fehlende Akzente oder Betonungen der Zielperson
Metallischer Klang oder unnatürliche „Umgebungsgeräusche“
Synchronität der Lippen
Zeitverzögerung, um z. B. die Antwort zu übersetzen
Zeitstempel der Aufnahme passt nicht

ZUALLERERST IST ES WICHTIG, SICH MIT DEM KONTEXT ZU BEFASSEN, Z. B.:

Ist die Quellenangabe oder Webseite seriös?
Wann und wo ist das Material das erste Mal aufgetaucht?
Stehen die Aussagen im Gegensatz zum typischen Verhalten der Person?

Idealerweise schaut man sich Bilder und Videos vergrößert an, um etwaige Unstimmigkeiten zu erkennen. Lediglich kryptographische Verfahren bieten die Möglichkeit, Identitäten eindeutig zuzuordnen. Die gleichen Verfahren, die dabei helfen „Deepfakes“ zu erstellen, können mittels neuronaler Netze diese auch wieder eindeutig identifizieren – natürlich nur mit zahlreichen Referenzdaten.

zurück zur Artikelübersicht