Erkennung und Klassifizierung von Deep Fakes mithilfe von Fehlern
HeimHeim > Blog > Erkennung und Klassifizierung von Deep Fakes mithilfe von Fehlern

Erkennung und Klassifizierung von Deep Fakes mithilfe von Fehlern

Jul 18, 2023

Scientific Reports Band 13, Artikelnummer: 7422 (2023) Diesen Artikel zitieren

1607 Zugriffe

3 Altmetrisch

Details zu den Metriken

Aufgrund der breiten Verfügbarkeit leicht zugänglicher Inhalte in sozialen Medien sowie der fortschrittlichen Tools und der kostengünstigen Computerinfrastruktur ist es für Menschen sehr einfach, Deep Fakes zu produzieren, die zur Verbreitung von Desinformationen und Falschmeldungen führen können. Dieser rasante Fortschritt kann Panik und Chaos auslösen, da jeder mit diesen Technologien problemlos Propaganda betreiben kann. Daher ist ein robustes System zur Unterscheidung zwischen echten und gefälschten Inhalten im Zeitalter der sozialen Medien von entscheidender Bedeutung. In diesem Artikel wird eine automatisierte Methode zur Klassifizierung von Deep-Fake-Bildern mithilfe von Methoden vorgeschlagen, die auf Deep Learning und maschinellem Lernen basieren. Herkömmliche auf maschinellem Lernen (ML) basierende Systeme, die eine handgefertigte Merkmalsextraktion nutzen, sind nicht in der Lage, komplexere Muster zu erfassen, die schlecht verstanden oder mithilfe einfacher Merkmale leicht dargestellt werden können. Diese Systeme können nicht gut auf unsichtbare Daten verallgemeinern. Darüber hinaus reagieren diese Systeme empfindlich auf Rauschen oder Schwankungen in den Daten, was ihre Leistung beeinträchtigen kann. Daher können diese Probleme ihren Nutzen in realen Anwendungen einschränken, in denen sich die Daten ständig weiterentwickeln. Das vorgeschlagene Framework führt zunächst eine Fehlerebenenanalyse des Bildes durch, um festzustellen, ob das Bild geändert wurde. Dieses Bild wird dann zur Tiefenmerkmalsextraktion an Convolutional Neural Networks übermittelt. Die resultierenden Merkmalsvektoren werden dann über Support Vector Machines und K-Nearest Neighbors klassifiziert, indem eine Hyperparameteroptimierung durchgeführt wird. Die vorgeschlagene Methode erreichte über Residual Network und K-Nearest Neighbor die höchste Genauigkeit von 89,5 %. Die Ergebnisse belegen die Effizienz und Robustheit der vorgeschlagenen Technik; Daher kann es verwendet werden, um Deep-Fake-Bilder zu erkennen und die potenzielle Gefahr von Verleumdung und Propaganda zu verringern.

Im letzten Jahrzehnt sind Social-Media-Inhalte wie Fotos und Filme aufgrund kostengünstiger Geräte wie Smartphones, Kameras und Computer exponentiell gewachsen. Die Zunahme von Social-Media-Anwendungen hat es den Menschen ermöglicht, diese Inhalte schnell plattformübergreifend zu teilen, wodurch die Online-Inhalte drastisch zugenommen haben und ein einfacher Zugang ermöglicht wurde. Gleichzeitig haben wir enorme Fortschritte bei komplexen, aber effizienten Algorithmen für maschinelles Lernen (ML) und Deep Learning (DL) gesehen, die zur Manipulation audiovisueller Inhalte eingesetzt werden können, um Fehlinformationen zu verbreiten und den Ruf von Menschen im Internet zu schädigen. Wir leben jetzt in Zeiten, in denen die Verbreitung von Desinformation leicht dazu genutzt werden kann, die Meinung der Menschen zu beeinflussen und zur Manipulation von Wahlen oder zur Diffamierung einzelner Personen genutzt werden kann. Die Erstellung von Deep Fakes hat sich in den letzten Jahren dramatisch weiterentwickelt und könnte zur weltweiten Verbreitung von Desinformation genutzt werden, was bald eine ernsthafte Bedrohung darstellt. Bei Deep Fakes handelt es sich um synthetisierte Audio- und Videoinhalte, die über KI-Algorithmen generiert werden. Die Verwendung von Videos als Beweismittel in Rechtsstreitigkeiten und Strafverfahren ist gängige Praxis. Die Authentizität und Integrität jedes als Beweismittel eingereichten Videos muss nachgewiesen werden. Insbesondere wenn die Deep-Fake-Generierung komplexer wird, dürfte dies eine schwierige Aufgabe werden.

Es gibt folgende Kategorien von Deep-Fake-Videos: Face-Swap, Synthese und Manipulation von Gesichtszügen. Bei Face-Swap-Deepfakes wird das Gesicht einer Person mit dem der Quellperson getauscht, um ein gefälschtes Video zu erstellen, das eine Person für Aktivitäten ins Visier nimmt, die sie nicht begangen hat1, was den Ruf der Person schädigen kann2. Bei einer anderen Art von Deep Fake namens Lip-Syncing werden die Lippen der Zielperson manipuliert, um die Bewegungen entsprechend einer bestimmten Audiospur zu ändern. Der Zweck der Lippensynchronisation besteht darin, die Stimme des Angreifers des Opfers zu simulieren, indem jemand mit dieser Stimme sprechen lässt. Mit Puppet-Master werden Deep Fakes erzeugt, indem der Gesichtsausdruck, die Augenbewegungen und die Kopfbewegungen des Ziels nachgeahmt werden. Mithilfe fiktiver Profile werden falsche Informationen in den sozialen Medien verbreitet. Nicht zuletzt werden Deep Audio Fakes oder Voice Cloning eingesetzt, um die Stimme einer Person zu manipulieren, die etwas mit dem Sprecher in Verbindung bringt, was sie in Wirklichkeit nicht gesagt hat1,3.

Die Bedeutung der Wahrheitsfindung im digitalen Bereich ist daher gestiegen. Der Umgang mit Deep Fakes ist deutlich schwieriger, da sie meist für schädliche Zwecke eingesetzt werden und praktisch jeder heute mit den bereits verfügbaren Tools Deep Fakes erstellen kann. Bisher wurden viele verschiedene Strategien entwickelt, um Deep Fakes zu finden. Da die meisten auch auf Deep Learning basieren, ist ein Konflikt zwischen schlechten und guten Deep-Learning-Anwendungen entstanden4. Um dieses Problem zu lösen, hat die United States Defense Advanced Research Projects Agency (DARPA) daher einen Forschungsplan zur Medienforensik ins Leben gerufen, um Methoden zur Erkennung gefälschter digitaler Medien zu entwickeln5. Darüber hinaus kündigte Facebook in Zusammenarbeit mit Microsoft auch eine KI-basierte Herausforderung zur Erkennung von Deep Fakes an, um zu verhindern, dass Deep Fakes zur Täuschung von Zuschauern eingesetzt werden6.

In den letzten Jahren haben mehrere Forscher die Bereiche maschinelles Lernen und Deep Learning (DL) erforscht, um Deep Fakes aus audiovisuellen Medien zu erkennen. Die ML-basierten Algorithmen verwenden vor der Klassifizierungsphase eine arbeitsintensive und fehlerhafte manuelle Merkmalsextraktion. Infolgedessen ist die Leistung dieser Systeme beim Umgang mit größeren Datenbanken instabil. Allerdings führen DL-Algorithmen diese Aufgaben automatisch aus, was sich in verschiedenen Anwendungen, einschließlich der Deep-Fake-Erkennung, als äußerst hilfreich erwiesen hat. Convolutional Neural Network (CNN), eines der bekanntesten DL-Modelle, wird aufgrund seiner hochmodernen Leistung, die automatisch Low-Level- und High-Level-Features aus der Datenbank extrahiert, häufig verwendet. Daher haben diese Methoden das Interesse der Forscher bei Wissenschaftlern auf der ganzen Welt geweckt7.

Trotz umfangreicher Forschung zum Thema Deep-Fakes-Erkennung gibt es immer Potenzial für Verbesserungen in Bezug auf Effizienz und Wirksamkeit. Es ist anzumerken, dass sich die Deep-Fake-Generierungstechniken schnell verbessern, was zu immer anspruchsvolleren Datensätzen führt, bei denen frühere Techniken möglicherweise nicht effektiv funktionieren. Die Motivation hinter der Entwicklung automatisierter DL-basierter Deep-Fake-Erkennungssysteme besteht darin, den potenziellen Schaden zu mindern, der durch Deep-Fake-Technologie verursacht wird. Deep-Fake-Inhalte können Menschen täuschen und manipulieren, was schwerwiegende Folgen wie politische Unruhen, Finanzbetrug und Reputationsschäden nach sich ziehen kann. Die Entwicklung solcher Systeme kann erhebliche positive Auswirkungen auf verschiedene Branchen und Bereiche haben. Diese Systeme verbessern auch das Vertrauen und die Zuverlässigkeit von Medien und Online-Inhalten. Da die Deep-Fake-Technologie immer ausgefeilter und zugänglicher wird, ist es wichtig, über zuverlässige Tools zur Unterscheidung zwischen echten und gefälschten Inhalten zu verfügen. Daher ist die Entwicklung eines robusten Systems zur Erkennung von Deep Fakes in den Medien im Zeitalter der sozialen Medien äußerst notwendig geworden. Dieses Papier ist eine Fortsetzung der Studie von Rimsha et al.8. Der Artikel vergleicht die Leistung von CNN-Architekturen wie AlexNet und VGG16, um festzustellen, ob das Bild echt ist oder digital verändert wurde. Die Hauptbeiträge dieser Studie sind wie folgt:

In dieser Studie schlagen wir eine neuartige Deep-Fake-Erkennungs- und Klassifizierungsmethode vor, die DL- und ML-basierte Methoden verwendet.

Das vorgeschlagene Framework verarbeitet das Bild vor, indem es seine Größe entsprechend der Eingabeschicht von CNN ändert und dann eine Fehlerebenenanalyse durchführt, um digitale Manipulationen auf Pixelebene zu finden.

Das resultierende ELA-Bild wird zur Tiefenmerkmalsextraktion an Convolutional Neural Networks, also GoogLeNet, ResNet18 und SqueezeNet, übermittelt.

Es werden umfangreiche Experimente durchgeführt, um durch Hyperparameter-Tuning die optimale Hyperparameter-Einstellung zu finden.

Die Leistung der vorgeschlagenen Technik wird anhand des öffentlich verfügbaren Datensatzes zur Deep-Fake-Erkennung bewertet

Der allererste Deep Fake wurde 1860 entwickelt, als ein Porträt des Anführers des Südens, John Calhoun, zu Propagandazwecken fachmännisch verändert wurde, indem sein Kopf gegen den US-Präsidenten ausgetauscht wurde. Diese Manipulationen werden normalerweise durch Zusammenfügen, Malen und Kopieren der Elemente innerhalb oder zwischen zwei Fotos durchgeführt. Anschließend werden geeignete Nachbearbeitungsprozesse eingesetzt, um die visuelle Attraktivität, den Maßstab und die perspektivische Kohärenz zu verbessern. Zu diesen Schritten gehören Skalierung, Drehung und Farbänderung9,10. Aufgrund der Entwicklungen in der Computergrafik und den ML/DL-Techniken stehen nun zusätzlich zu diesen herkömmlichen Manipulationsmethoden eine Reihe automatisierter Verfahren zur digitalen Manipulation mit verbesserter semantischer Konsistenz zur Verfügung. Änderungen an digitalen Medien sind aufgrund der weit verbreiteten Software zur Entwicklung solcher Inhalte relativ erschwinglich geworden. Die Manipulation digitaler Medien nimmt sehr schnell zu, was die Entwicklung solcher Algorithmen erfordert, um solche Inhalte zuverlässig zu erkennen und zu analysieren und den Unterschied zwischen richtig und falsch zu finden11,12,13.

Obwohl es sich um eine relativ neue Technologie handelt, war Deep Fake Gegenstand von Untersuchungen. In den letzten Jahren kam es gegen Ende 2020 zu einem erheblichen Anstieg von Deep-Fakes-Artikeln. Aufgrund des Aufkommens von ML- und DL-basierten Techniken haben viele Forscher automatisierte Algorithmen entwickelt, um Deep Fakes aus audiovisuellen Inhalten zu erkennen. Diese Techniken haben dabei geholfen, den echten und den gefälschten Inhalt leicht herauszufinden. Deep Learning ist bekannt für seine Fähigkeit, komplizierte und hochdimensionale Daten darzustellen11,14. Matern et al.15 verwendeten erkannte Deep Fakes aus dem Face Forensics-Datensatz mithilfe von Multilayered Perceptron (MLP) mit einer AUC von 0,85. Allerdings berücksichtigt die Studie nur Gesichtsbilder mit offenen Augen. Agarwal et al.16 extrahierten Merkmale mit dem Open Face 2-Toolkit und führten eine Klassifizierung über SVM durch. Das System erreichte eine AUC von 93 %; Allerdings liefert das System falsche Ergebnisse, wenn eine Person nicht in die Kamera blickt. Die Autoren von Ciftci et al.17 extrahierten medizinische Signalmerkmale und führten eine Klassifizierung über CNN mit einer Genauigkeit von 97 % durch. Allerdings ist das System aufgrund eines sehr großen Merkmalsvektors rechenintensiv. In ihrer Studie extrahierten Yang et al.18 mithilfe von DLib 68-D-Gesichtsmerkmale und klassifizierten diese Merkmale mithilfe von SVM. Das System erreichte einen ROC von 89 %. Das System ist jedoch nicht robust gegenüber Unschärfe und erfordert eine Vorverarbeitungsstufe. Rossle et al.19 verwendeten SVM + CNN zur Merkmalsklassifizierung und eine Co-Occurrence-Matrix zur Merkmalsextraktion. Das System erreichte eine Genauigkeit von 90,29 % im Gesichtsforensik-Datensatz. Allerdings liefert das System bei komprimierten Videos schlechte Ergebnisse. McCloskey et al.20 entwickelten einen Deep-Fake-Detektor, indem sie die Unähnlichkeit der Farben zwischen einer echten Kamera und synthetisierten und echten Bildproben nutzten. Der SVM-Klassifikator wurde anhand farbbasierter Merkmale der Eingabeproben trainiert. Allerdings kann das System bei nicht vorverarbeiteten und verschwommenen Bildern Probleme haben.

Ein hybrides Multitask-Lernframework mit einem Fire Hawk-Optimierer für die Erkennung gefälschter arabischer Nachrichten zielt darauf ab, das Problem der Identifizierung gefälschter Nachrichten in der arabischen Sprache anzugehen. Die Studie schlägt einen hybriden Ansatz vor, der die Leistungsfähigkeit mehrerer Aufgaben nutzt, um Fake News genauer und effizienter zu erkennen. Das Framework verwendet eine Kombination aus drei Aufgaben, nämlich Satzklassifizierung, Haltungserkennung und Relevanzvorhersage, um die Authentizität des Nachrichtenartikels zu bestimmen. Die Studie schlägt außerdem die Verwendung des Fire Hawk Optimizer-Algorithmus vor, eines von der Natur inspirierten Optimierungsalgorithmus, um die Parameter des Frameworks zu optimieren. Dies trägt dazu bei, die Genauigkeit des Modells zu verbessern und eine bessere Leistung zu erzielen. Der Fire Hawk Optimizer ist ein effizienter und robuster Algorithmus, der vom Jagdverhalten von Falken inspiriert ist. Es nutzt eine globale und lokale Suchstrategie, um nach der optimalen Lösung zu suchen21. Die Autoren in22 schlagen eine Convolution Vision Transformer (CVT)-Architektur vor, die sich von CNN dadurch unterscheidet, dass sie auf einer Kombination aus Aufmerksamkeitsmechanismen und Faltungsoperationen beruht und dadurch Muster in Bildern effektiver erkennt. Aufmerksamkeit und mehrschichtige Perzeptronschichten (MLP). Die Selbstaufmerksamkeitsschicht lernt, sich auf kritische Bereiche des Eingabebildes zu konzentrieren, ohne dass Faltungsoperationen erforderlich sind, während die MLP-Schicht dabei hilft, Merkmale aus diesen Bereichen zu extrahieren. Die extrahierten Merkmale werden dann an die Ausgabeebene weitergeleitet, um die endgültige Klassifizierungsentscheidung zu treffen. Allerdings ist das System aufgrund der tiefen Architektur rechenintensiv. Guarnera et al.23 identifizierten Deep-Fake-Bilder mithilfe der Erwartungsmaximierung zum Extrahieren von Merkmalen und SVM, KNN, LDA als Klassifizierungsmethoden. Allerdings erkennt das System komprimierte Bilder nicht. Nguyen et al.24 schlugen eine CNN-basierte Architektur zur Erkennung von Deep-Fake-Inhalten vor und erreichten eine Genauigkeit von 83,7 % für den Face Forensics-Datensatz. Allerdings ist das System nicht in der Lage, auf unbekannte Fälle gut zu verallgemeinern. Khalil et al.25 nutzten Local Binary Patterns (LBP) für die Merkmalsextraktion und CNN und Capsule Network für die Erkennung von Deep Fakes. Die Modelle wurden mit dem Deep Fake Detection Challenge-Preview-Datensatz trainiert und mit DFDC-Preview- und Celeb-DF-Datensätzen getestet. Ein von Afchar et al.26 entwickelter Deep-Fake-Ansatz nutzte MesoInception-4 und erreichte mithilfe des Face Forensics-Datensatzes eine True-Positive-Rate von 81,3 %.

Das System erfordert jedoch eine Vorverarbeitung vor der Merkmalsextraktion und -klassifizierung. Dies führt daher zu einer geringen Gesamtleistung bei Videos mit geringer Qualität. Wang et al.27 bewerteten die Leistung von Residual Networks bei der Deep-Fake-Klassifizierung. Die Autoren verwendeten ResNet und ResNeXt für Videos aus dem Gesichtsforensik-Datensatz. In einer anderen Studie von Stehouwer et al.28 stellten die Autoren einen CNN-basierten Ansatz zur Erkennung von Deep-Fake-Inhalten vor, der eine Gesamtgenauigkeit von 99 % auf dem Datensatz „Diverse Fake Face“ erreichte. Allerdings ist das System aufgrund eines sehr großen Merkmalsvektors rechenintensiv. Trotz erheblicher Fortschritte ist das Training bestehender DL-Algorithmen rechenintensiv und erfordert High-End-GPUs oder spezielle Hardware. Dies kann es für Forscher und Organisationen mit begrenzten Ressourcen schwierig machen, Deep-Learning-Modelle zu entwickeln und einzusetzen. Darüber hinaus neigen einige der vorhandenen DL-Algorithmen zu einer Überanpassung, die auftritt, wenn das Modell zu komplex wird und lernt, sich die Trainingsdaten zu merken, anstatt verallgemeinerbare Muster zu lernen. Dies kann zu einer schlechten Leistung bei neuen, unsichtbaren Daten führen. Die Einschränkungen der aktuellen Methoden zeigen, dass immer noch Bedarf besteht, eine robuste und effiziente Methode zur Erkennung und Klassifizierung von Deep Fakes unter Verwendung von ML- und DL-basierten Ansätzen zu entwickeln.

In diesem Abschnitt wird der vorgeschlagene Arbeitsablauf zur Deep-Fakes-Erkennung erläutert. Das Arbeitsablaufdiagramm unseres vorgeschlagenen Frameworks ist in Abb. 1 dargestellt. Das vorgeschlagene System besteht aus drei Kernschritten: (i) Bildvorverarbeitung durch Größenänderung des Bildes entsprechend der Eingabeebene von CNN und anschließende Erstellung einer Fehlerebenenanalyse des Bildes, um Änderungen auf Pixelebene zu bestimmen (ii) Tiefenmerkmalsextraktion über CNN-Architekturen (iii) Klassifizierung über SVM und KNN durch Durchführung einer Hyperparameteroptimierung.

Arbeitsablaufdiagramm der vorgeschlagenen Methode.

Die Fehlerstufenanalyse, auch ELA genannt, ist eine forensische Technik zur Identifizierung von Bildsegmenten mit unterschiedlichen Komprimierungsstufen. Durch die Messung dieser Komprimierungsgrade ermittelt die Methode, ob ein Bild einer digitalen Bearbeitung unterzogen wurde. Diese Technik funktioniert am besten bei .JPG-Bildern, da in diesem Fall die gesamten Bildpixel ungefähr die gleichen Komprimierungsstufen haben sollten und im Falle einer Manipulation variieren können29,30.

JPEG (Joint Photographic Experts Group) ist eine Technik zur verlustbehafteten Komprimierung digitaler Bilder. Ein Datenkomprimierungsalgorithmus verwirft (verliert) einige der Daten, um sie zu komprimieren. Die Komprimierungsstufe könnte als akzeptabler Kompromiss zwischen Bildgröße und Bildqualität verwendet werden. Normalerweise beträgt das JPEG-Komprimierungsverhältnis 10:1. Die JPEG-Technik verwendet unabhängig komprimierte 8 × 8-Pixel-Bildraster. Alle Matrizen, die größer als 8 × 8 sind, sind theoretisch schwieriger zu manipulieren oder werden von der Hardware nicht unterstützt, während Matrizen, die kleiner als 8 × 8 sind, nicht über ausreichende Informationen verfügen.

Folglich sind die komprimierten Bilder von schlechter Qualität. Alle 8 × 8-Raster für unveränderte Bilder sollten die gleiche Fehlerstufe aufweisen, sodass das Bild erneut gespeichert werden kann. Da sich im Bild gleichmäßig verteilte Fehler befinden, sollte sich jedes Quadrat ungefähr im gleichen Tempo verschlechtern. Das veränderte Raster in einem veränderten Bild sollte ein höheres Fehlerpotenzial aufweisen als der Rest31.

ELA. Das Bild wird mit einer Fehlerrate von 95 % erneut gespeichert und die Differenz zwischen den beiden Bildern wird berechnet. Diese Technik bestimmt, ob es eine Veränderung in den Zellen gibt, indem sie prüft, ob sich die Pixel an ihren lokalen Minima befinden8,32. Dies hilft festzustellen, ob digitale Manipulationen in der Datenbank vorliegen. Die ELA wird anhand unserer Datenbank berechnet, wie in Abb. 2 dargestellt.

Ergebnis der ELA auf Datensatzbildern.

Die Entdeckung von CNN hat seine Popularität unter Akademikern gesteigert und sie dazu motiviert, schwierige Probleme zu lösen, die sie zuvor aufgegeben hatten. Forscher haben in den letzten Jahren mehrere CNN-Designs entwickelt, um vielfältige Herausforderungen in verschiedenen Forschungsbereichen zu bewältigen, einschließlich der Deep-Fake-Erkennung. Die allgemeine Architektur von CNN, wie in Abb. 3 dargestellt, besteht normalerweise aus vielen übereinander gestapelten Schichten. Die Architektur von CNN besteht aus einem Merkmalsextraktionsmodul, das aus Faltungsschichten zum Erlernen der Merkmale und Pooling-Schichten zur Reduzierung der Bilddimensionalität besteht. Zweitens besteht es aus einem Modul, das eine vollständig verbundene (FC) Schicht zur Klassifizierung eines Bildes33,34 umfasst.

Allgemeine CNN-Architektur.

Die Eingabe des Bildes erfolgt über die Eingabeebene, die zur Tiefenmerkmalsextraktion an die Faltung weitergegeben wird. Diese Ebene lernt die visuellen Merkmale des Bildes, indem sie die Beziehung zwischen seinen Pixeln beibehält. Diese mathematische Berechnung wird an einer Bildmatrix unter Verwendung eines Filters/Kernels der angegebenen Größe35 durchgeführt. Die Max-Pooling-Ebene reduziert die Bildabmessungen. Dieser Prozess trägt dazu bei, die Trainingsgeschwindigkeit zu erhöhen und die Rechenlast für die nächsten Phasen zu reduzieren36. Einige Netzwerke umfassen möglicherweise Normalisierungsschichten, z. B. Batch-Normalisierung oder Dropout-Schicht. Die Batch-Normalisierungsschicht stabilisiert die Netzwerktrainingsleistung, indem sie Standardisierungsvorgänge für die Eingabe in Mini-Batches durchführt. Die Dropout-Schicht hingegen löscht zufällig einige Knoten, um die Netzwerkkomplexität zu verringern und die Netzwerkleistung zu erhöhen37,38. Die letzten Schichten des CNN umfassen eine FC-Schicht mit einer Softmax-Wahrscheinlichkeitsfunktion. Der FC-Layer speichert alle aus den vorherigen Phasen extrahierten Features. Diese Merkmale werden dann zur Bildklassifizierung an Klassifizierer übergeben38. Da CNN-Architekturen wichtige Merkmale ohne menschliches Zutun extrahieren können, haben wir in dieser Studie vorab trainierte CNNs wie GoogLeNet39, ResNet1831 und SqueezeNet40 verwendet. Es ist anzumerken, dass die Entwicklung und das Training einer Deep-Learning-Architektur von Grund auf nicht nur eine zeitaufwändige Aufgabe ist, sondern auch Rechenressourcen erfordert. Daher verwenden wir in unserem vorgeschlagenen Framework vorab trainierte CNN-Architekturen als Deep-Feature-Extraktoren.

Microsoft hat 2015 die Residual Network (ResNet)-Architektur eingeführt, die aus mehreren Convolution Layers mit der Kernelgröße 3 × 3, einem FC Layer, gefolgt von einem zusätzlichen Softmax Layer zur Klassifizierung, besteht. Da sie Abkürzungsverbindungen verwenden, die eine oder mehrere Ebenen überspringen, sind Restnetzwerke effizient und weisen einen geringen Rechenaufwand auf41. Anstatt davon auszugehen, dass jeder Ebenenstapel sofort einer bestimmten zugrunde liegenden Zuordnung entspricht, passen die Ebenen zu einer Restabbildung. Da die resultierenden Ausgaben zu denen der gestapelten Schichten addiert werden, reduzieren diese schnellen Verbindungen den Wertverlust während des Trainings. Diese Funktionalität trägt auch dazu bei, den Algorithmus wesentlich schneller zu trainieren als herkömmliche CNNs.

Darüber hinaus hat dieses Mapping keine Parameter, da es die Ausgabe an die nächste Ebene überträgt. Die ResNet-Architektur übertraf andere CNNs, indem sie die niedrigste Fehlerrate der oberen 5 % bei einem Klassifizierungsauftrag erreichte, nämlich 3,57 %31,42. Die Architektur von ResNet50 ist in Abb. 443 dargestellt.

ResNet18-Architektur44.

SqueezNet wurde von Forschern der UC Berkeley und der Stanford University entwickelt und ist eine sehr leichte und kleine Architektur. Die kleineren CNN-Architekturen sind nützlich, da sie beim verteilten Training weniger Kommunikation zwischen Servern erfordern. Darüber hinaus trainieren diese CNNs auch schneller und benötigen weniger Speicher und sind daher im Vergleich zu herkömmlichen tiefen CNNs nicht rechenintensiv. Durch die Änderung der Architektur behaupten die Forscher, dass SqueezeNet die Genauigkeit auf AlexNet-Niveau über ein kleineres CNN45 erreichen kann. Da ein 1 × 1-Filter 9 × weniger Parameter enthält als ein 3 × 3-Filter, wurden die 3 × 3-Filter in diesen Modifikationen durch 1 × 1-Filter ersetzt. Darüber hinaus wird die Anzahl der Eingangskanäle über Squeeze-Layer auf 3 × 3 Filter reduziert, was die Gesamtzahl der Parameter verringert.

Nicht zuletzt wird das Downsampling sehr spät im Netzwerk durchgeführt, sodass die Faltungsschichten große Aktivierungskarten bilden, was angeblich die Klassifizierungsgenauigkeit erhöht40. GoogLeNet wurde von Google-Forschern entwickelt und ist ein 22-schichtiges tiefes Faltungs-Neuronales Netzwerk, das eine Faltungsfiltergröße von 1 × 1, globales Durchschnittspooling und eine Eingabegröße von 224 × 224 × 3 verwendet. Die Architektur von GoogLeNet ist in Abb. 5 dargestellt. Um die Tiefe der Netzwerkarchitektur zu erhöhen, wird die Größe des Faltungsfilters auf 1 × 1 reduziert. Darüber hinaus verwendet das Netzwerk gegen Ende der Architektur globales Durchschnittspooling, das eine 7 × 7-Feature-Map eingibt und diese auf 1 × mittelt 1 Feature-Karte. Dies trägt dazu bei, trainierbare Parameter zu reduzieren und die Leistung des Systems zu verbessern. In der Architektur wird außerdem eine Dropout-Regularisierung von 0,7 verwendet und die Features werden in einem FC-Layer39 gespeichert.

GoogLeNet-Architektur46.

CNNs extrahieren Merkmale aus Bildern hierarchisch mithilfe von Faltungs-, Pooling- und vollständig verbundenen Schichten. Die von CNNs extrahierten Merkmale können grob in zwei Kategorien eingeteilt werden: Merkmale auf niedriger Ebene und Merkmale auf hoher Ebene. Zu den Funktionen auf niedriger Ebene gehören Kanten, Ecken und Intensitätsvariationen. CNNs können Kanten erkennen, indem sie das Eingabebild mit einem Filter falten, der die Kanten im Bild hervorhebt. Sie können Ecken auch erkennen, indem sie das Eingabebild mit einem Filter falten, der die Ecken hervorhebt. Darüber hinaus können CNNs Farbmerkmale extrahieren, indem sie das Eingabebild mit Filtern falten, die bestimmte Farben hervorheben. Zu den High-Level-Features gehören hingegen Texturen, Objekte sowie kontextbezogene und hierarchische Features. Texturen aus Bildern werden erkannt, indem das Eingabebild mit Filtern gefaltet wird, die unterschiedliche Texturen hervorheben. Die CNNs erkennen Objekte, indem sie das Eingabebild mit Filtern falten, die verschiedene Formen hervorheben. Kontextbezogene Merkmale werden hingegen durch die Berücksichtigung der Beziehungen zwischen verschiedenen Objekten im Bild extrahiert. Schließlich können die CNNs lernen, hierarchische Merkmale zu extrahieren, indem sie mehrere Faltungsschichten übereinander stapeln. Die unteren Schichten extrahieren Merkmale auf niedriger Ebene, während die höheren Schichten Merkmale auf hoher Ebene extrahieren.

In dieser Phase haben wir die tiefen CNN-Merkmale über SVM- und KNN-Klassifikatoren klassifiziert. KNN erfreut sich in der Forschungsgemeinschaft bei Klassifizierungs- und Regressionsaufgaben großer Beliebtheit, da es aufgrund seiner Einfachheit und Robustheit viele andere bestehende Klassifikatoren übertrifft. KNN berechnet den Abstand zwischen einer Testprobe (k) und ihren Nachbarn und gruppiert dann die k Testprobe zu ihrem nächsten Nachbarn. Der KNN-Klassifikator ist in Abb. 6 dargestellt

KNN.

Der zweite in dieser Studie verwendete Klassifikator ist SVM, ein weit verbreiteter Klassifikator, der aufgrund seiner höheren Geschwindigkeit und überlegenen Vorhersageergebnisse selbst bei einem minimalen Datensatz häufig in vielen Forschungsbereichen verwendet wird. Der Klassifikator findet die Ebene mit dem größten Abstand, der die beiden Klassen trennt. Je größer der Spielraum, desto besser ist die Klassifizierungsleistung des Klassifikators30,47. Abbildung 7A zeigt mögliche Hyperebenen für ein bestimmtes Klassifizierungsproblem, während Abb. 7B die beste Hyperebene darstellt, die von SVM für dieses Problem ermittelt wurde.

Mögliche SVM-Hyperebenen30.

Diese Studie verwendet einen öffentlich zugänglichen Datensatz, der vom Computational Intelligence and Photography Lab der Yonsei University zusammengestellt wurde. Die Datenbank für echte und gefälschte Gesichter des Computational Intelligence and Photography Lab der Yonsei University ist ein Datensatz, der Bilder von echten und gefälschten menschlichen Gesichtern enthält. Der Datensatz wurde für die Forschung und Entwicklung von Gesichtserkennungs- und Verifizierungssystemen konzipiert, insbesondere von Systemen zur Erkennung gefälschter oder manipulierter Bilder. Jedes Bild im Datensatz ist entweder als echt oder gefälscht gekennzeichnet, und der Datensatz enthält außerdem zusätzliche Informationen zum Bild, wie etwa Alter, Geschlecht und ethnische Zugehörigkeit des Motivs sowie die für gefälschte Bilder verwendete Manipulationstechnik. Darüber hinaus enthalten die Bilder verschiedene Gesichter, aufgeteilt in Augen, Nase, Mund oder das gesamte Gesicht. Die manipulierten Bilder wurden weiter in drei Kategorien unterteilt: einfache, mittlere und harte Bilder, wie in Abb. 848 dargestellt.

Bildbeispiele aus dem Datensatz, die echte und bearbeitete Bilder zeigen.

Bewertungsmetriken werden beim maschinellen Lernen verwendet, um die Leistung eines Modells zu messen. Modelle für maschinelles Lernen sind darauf ausgelegt, aus Daten zu lernen und auf der Grundlage dieser Daten Vorhersagen oder Entscheidungen zu treffen. Es ist wichtig, die Leistung eines Modells zu bewerten, um zu verstehen, wie gut es funktioniert, und um notwendige Verbesserungen vorzunehmen. Eine der am häufigsten verwendeten Techniken ist eine Verwirrungsmatrix, eine Tabelle zur Bewertung der Leistung eines Klassifizierungsmodells durch Vergleich der tatsächlichen und vorhergesagten Klassen für einen Satz Testdaten. Es handelt sich um eine Matrix aus vier Werten: wahr-positive Werte (TP), falsch-positive Werte (FP), wahr-negative Werte (TN) und falsch-negative Werte (FN). Das vorgeschlagene Framework wird anhand von Genauigkeit, Präzision, Rückruf und F1-Score bewertet. Auch wenn die Genauigkeit eine weit verbreitete Metrik ist, ist sie im Falle eines ausgewogenen Datensatzes geeignet; Daher haben wir unsere vorgeschlagenen Methoden auch mithilfe des F1-Scores bewertet, der sowohl Erinnerung als auch Präzision in einer einzigen Metrik vereint. Alle Bewertungsmetriken, die wir zur Bewertung unserer Modelle verwendet haben, werden aus Gleichung berechnet. (1) zu Gl. (4).

Die eskalierenden Probleme mit Deep Fakes haben in den letzten Jahren das Interesse von Forschern an der Medienforensik verstärkt. Die Deep-Fake-Technologie hat verschiedene Anwendungen im Medienbereich, darunter Lippensynchronisation, Gesichtsaustausch und Alterung von Menschen. Obwohl Fortschritte in der DL- und Deep-Fake-Technologie verschiedene nützliche Anwendungen in der Wirtschaft, Unterhaltung und der Filmindustrie haben, können sie schädlichen Zielen dienen und dazu beitragen, dass Menschen nicht mehr glauben können, was wahr ist49,50. Daher ist es im Zeitalter der sozialen Medien von entscheidender Bedeutung, den Unterschied zwischen echt und falsch zu erkennen. Das Auffinden von Deep-Fake-Inhalten mit dem menschlichen Auge ist aufgrund der Fortschritte bei den Technologien zur Erstellung von Deep-Fake-Inhalten schwieriger geworden. Daher muss ein robustes System entwickelt werden, um diese gefälschten Medien ohne menschliches Eingreifen genau zu klassifizieren.

In dieser Studie schlagen wir eine neuartige und robuste Architektur zur Erkennung und Klassifizierung von Deep-Fake-Bildern mithilfe von ML- und DL-basierten Techniken vor. Das vorgeschlagene Framework verwendet einen Vorverarbeitungsansatz, um ELA zu finden. ELA hilft herauszufinden, ob ein Teil des Bildes verändert wurde, indem es das Bild auf Pixelebene analysiert. Diese Bilder werden dann an Deep-CNN-Architekturen (SqueezeNet, ResNet18 und GoogLeNet) übermittelt, um Deep-Features zu extrahieren. Die Tiefenmerkmale werden dann über SVM und KNN klassifiziert. Die aus der Verwirrungsmatrix und den ML-Klassifizierern von ResNet erhaltenen Ergebnisse sind in Abb. 9 dargestellt. Der Merkmalsvektor erreichte über KNN die höchste Genauigkeit von 89,5 %. Wir haben unsere verschiedenen Hyperparameter für beide Klassifikatoren getestet, bevor wir zu dem Schluss kamen. Die vorgeschlagene Methode erreichte über KNN eine Genauigkeit von 89,5 % bei der Korrelation als Distanzmetrik und insgesamt 881 Nachbarn. SVM erreichte eine Genauigkeit von 88,6 % auf dem Gaußschen Kernel mit einer Skala von 2,3.

Ergebnisse aus der Verwirrungsmatrix von ResNet18.

Unter Hyperparameteroptimierung versteht man den Prozess der Auswahl des besten Satzes von Hyperparametern für automatisierte Algorithmen. Die Optimierung ist für Modelle von entscheidender Bedeutung, da die Leistung des Modells von der Wahl der Hyperparameter abhängt. Wir haben Parameter wie Kernelfunktionen, Skalierung usw. optimiert. von Nachbarn, Entfernungsmetriken usw. für KNN und SVM. Die aus den besten parametrischen Einstellungen für verschiedene Merkmalsvektoren erhaltenen Ergebnisse sind in Fettdruck hervorgehoben und in Tabelle 1 dargestellt. Verwirrungsmatrizen von (a) SVM und (b) KNN sind in Abb. 10 dargestellt.

Die Verwirrungsmatrix von ResNet18 über (a) SVM, (b) KNN.

Darüber hinaus erreichte der von GoogLeNet erhaltene Merkmalsvektor über KNN auf Chebyshev als Distanzmetrik mit einer Gesamtzahl von 154 Nachbarn die höchste Genauigkeit von 81 %. Die SVM klassifizierte den Merkmalsvektor mit einer Genauigkeit von 80,9 % auf dem Gaußschen Kernel mit einer Kernelskala von 0,41. Die getesteten und optimalen Metriken (fett hervorgehoben) sind in Tabelle 2 aufgeführt. Detaillierte Ergebnisse zu anderen Bewertungsmetriken sind in Abb. 11 aufgeführt, während Abb. 12 die Verwirrungsmatrizen zeigt.

Die Ergebnisse von GoogLeNet in Bezug auf ACC, PRE, REC und F1-Score.

Verwirrungsmatrix, erhalten von GoogLeNet.

SVM und KNN klassifizierten den Merkmalsvektor von SqueezeNet mit 69,4 % bzw. 68,8 %. Die Klassifikatoren wurden anhand verschiedener Parameter bewertet, wie in Tabelle 3 aufgeführt, und erzielten bei den fett hervorgehobenen Parametern die maximale Leistung. Die Ergebnisse in Bezug auf Genauigkeit, Präzision, Erinnerung und f1-Score sind in Abb. 13 aufgeführt. Die Verwirrungsmatrix ist in Abb. 14 dargestellt.

Ergebnisse aus den Verwirrungsmatrizen von SqueezeNet.

Verwirrungsmatrix, erhalten von SqueezeNet.

In diesem Artikel wird eine neuartige Architektur zur Erkennung und Klassifizierung von Deep-Fake-Bildern mithilfe von DL- und ML-basierten Techniken vorgeschlagen. Das vorgeschlagene Framework verarbeitet das Bild zunächst vor, um ELA zu generieren, das dabei hilft, festzustellen, ob das Bild digital manipuliert wurde. Das resultierende ELA-Bild wird dann zur Tiefenmerkmalsextraktion an CNN-Architekturen wie GoogLeNet, ResNet18 und ShuffleNet weitergeleitet. Die Klassifizierung erfolgt dann über SVM und KNN. Die vorgeschlagene Methode erreichte über ResNet18 und KNN die höchste Genauigkeit von 89,5 %. Residual Networks sind sehr effizient und leichtgewichtig und bieten aufgrund ihrer robusten Merkmalsextraktions- und Klassifizierungstechniken eine viel bessere Leistung als viele andere herkömmliche Klassifikatoren. Der detaillierte Vergleich ist in Tabelle 4 dargestellt. Mittal et al.51 setzten Alex Net für die Deepfake-Erkennung ein. Allerdings ergab die Studie eine sehr schlechte Leistung. Chandani et al.50 verwendeten ein Restnetzwerk-Framework, um Deep-Fake-Bilder zu erkennen. Ebenso erreichten MLP und Meso Inception 4 von Matern et al.15 und Afchar et al.26 jeweils eine Genauigkeit von mehr als 80 %. Obwohl es sich bei Residual Networks um ein tiefes CNN handelt, sind sie aufgrund ihrer Shortcut-Verbindungen viel schneller, was auch zur Leistungssteigerung des Systems beiträgt. Daher schnitt die vorgeschlagene Methode bei den aus ResNet18 extrahierten Funktionen viel besser ab.

Deep Faking ist eine neue Technik, die häufig eingesetzt wird, um Desinformationen und Falschmeldungen unter der Bevölkerung zu verbreiten. Auch wenn nicht alle Deep-Fake-Inhalte böswillig sind, müssen sie gefunden werden, da einige eine Bedrohung für die Welt darstellen. Das Hauptziel dieser Forschung bestand darin, eine vertrauenswürdige Methode zur Identifizierung von Deep-Fake-Bildern zu finden. Viele Forscher arbeiten unermüdlich daran, Deep-Fake-Inhalte mithilfe verschiedener Ansätze zu erkennen. Die Bedeutung dieser Studie liegt jedoch in der Verwendung von DL- und ML-basierten Methoden, um gute Ergebnisse zu erzielen. Diese Studie stellt ein neuartiges Framework vor, um Deep-Fake-Bilder genauer zu erkennen und zu klassifizieren als viele bestehende Systeme. Die vorgeschlagene Methode nutzt ELA, um Bilder vorzuverarbeiten und Manipulationen auf Pixelebene zu erkennen. Die von ELA generierten Bilder werden dann zur Merkmalsextraktion an CNNs übermittelt. Diese tiefen Merkmale werden schließlich mithilfe von SVM und KNN klassifiziert. Die vorgeschlagene Technik erreichte über den Feature-Vektor und den SVM-Klassifikator von ResNet18 die höchste Genauigkeit von 89,5 %. Die Ergebnisse belegen die Robustheit der vorgeschlagenen Methode; Daher kann das System Deep-Fake-Bilder in Echtzeit erkennen. Die vorgeschlagene Methode wird jedoch unter Verwendung bildbasierter Daten entwickelt. In Zukunft werden wir mehrere andere CNN-Architekturen auf videobasierten Deep-Fake-Datensätzen untersuchen. Unser Ziel ist es auch, reale Deep-Fake-Datensätze von den Menschen in unserer Community zu erhalten und ML- und DL-Techniken zu verwenden, um zwischen Deep-Fake-Bildern und regulären Bildern zu unterscheiden, um sie nützlicher und robuster zu machen. Es ist erwähnenswert, dass die bahnbrechende Arbeit einen erheblichen Einfluss auf unsere Gesellschaft haben wird. Mithilfe dieser Technologie können gefälschte Opfer schnell beurteilen, ob die Bilder echt oder gefälscht sind. Die Menschen werden weiterhin vorsichtig sein, da unsere Arbeit es ihnen ermöglichen wird, das Deep-Fake-Bild zu erkennen.

Die während der aktuellen Studie verwendeten und/oder analysierten Datensätze sind auf begründete Anfrage beim jeweiligen Autor erhältlich.

Boylan, JF wird Deep-Fake-Technologie die Demokratie zerstören (The New York Times, 2018).

Google Scholar

Harwell, D. Scarlett Johansson über gefälschte KI-generierte Sexvideos: „Nichts kann jemanden davon abhalten, mein Bild auszuschneiden und einzufügen.“ J. Washigton Post 31, 12 (2018).

Google Scholar

Masood, M. et al. Erzeugung und Erkennung von Deepfakes: Stand der Technik, offene Herausforderungen, Gegenmaßnahmen und der Weg in die Zukunft. Appl. Intel. 53, 1–53 (2022).

Google Scholar

Amin, R., Al Ghamdi, MA, Almotiri, SH & Alruily, M. Gesundheitstechniken durch Deep Learning: Probleme, Herausforderungen und Chancen. IEEE Access 9, 98523–98541 (2021).

Artikel Google Scholar

Turek, MJ Defense Advanced Research Projects Agency. https://www.darpa.mil/program/media-forensics. Medienforensik (MediFor). Bd. 10 (2019).

Schroepfer, MJF Die Erstellung eines Datensatzes und eine Herausforderung für Deepfakes. Artif. Intel. 5, 263 (2019).

Google Scholar

Kibriya, H. et al. Ein neuartiges und effektives Hirntumor-Klassifizierungsmodell unter Verwendung von Deep Feature Fusion und berühmten Klassifikatoren für maschinelles Lernen. Bd. 2022 (2022).

Rafique, R., Nawaz, M., Kibriya, H. & Masood, M. DeepFake-Erkennung mithilfe von Fehlerstufenanalyse und Deep Learning. im Jahr 2021 4. Internationale Konferenz für Computer- und Informationswissenschaften (ICCIS). 1–4 (IEEE, 2021).

Güera, D. & Delp, EJ Deepfake-Videoerkennung mithilfe wiederkehrender neuronaler Netze. im Jahr 2018 15. IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS). 1–6 (IEEE, 2018).

Aleem, S. et al. Algorithmen für maschinelles Lernen bei Depressionen: Diagnose, Erkenntnisse und Forschungsrichtungen. Elektronik 11(7), 1111 (2022).

Artikel Google Scholar

Pavan Kumar, M. & Jayagopal, P. Generative gegnerische Netzwerke: Eine Umfrage zu Anwendungen und Herausforderungen. Int. J. Multimed. Inf. 10(1), 1–24 (2021).

Artikel Google Scholar

Mansoor, M. et al. Ein maschineller Lernansatz zur nicht-invasiven Sturzerkennung mit Kinect. Multimed. Werkzeuge Appl. 81(11), 15491–15519 (2022).

Artikel Google Scholar

Thies, J., Zollhofer, M., Stamminger, M., Theobalt, C. & Nießner, M. Face2face: Gesichtserfassung und Nachstellung von RGB-Videos in Echtzeit. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2387–2395 (2016).

Shad, HS et al. Vergleichende Analyse der Deepfake-Bilderkennungsmethode mithilfe eines Faltungs-Neuronalen Netzwerks. Bd. 2021 (2021).

Matern, F., Riess, C. & Stamminger, M. Ausnutzung visueller Artefakte, um Deepfakes und Gesichtsmanipulationen aufzudecken. im Jahr 2019 IEEE Winter Applications of Computer Vision Workshops (WACVW). 83–92 (IEEE, 2019).

Agarwal, S., Farid, H., Gu, Y., He, M., Nagano, K. & Li, H. Schutz der Staats- und Regierungschefs vor Deep Fakes. in CVPR-Workshops. Bd. 1. 38 (2019).

Ciftci, UA, Demir, I. & Yin, L. Fakecatcher: Erkennung synthetischer Porträtvideos mithilfe biologischer Signale (Google Patents, 2021).

Google Scholar

Yang, X., Li, Y. & Lyu, S. Aufdecken von Deep Fakes durch inkonsistente Kopfhaltungen. in ICASSP 2019–2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 8261–8265. (IEEE, 2019).

Rossler, A., Cozzolino, D., Verdoliva, L., Riess, C., Thies, J. & Nießner, M. Faceforensics++: Lernen, manipulierte Gesichtsbilder zu erkennen. in Proceedings of the IEEE/CVF International Conference on Computer Vision. 1–11 (2019).

McCloskey, S. & Albright, M. Erkennung von GAN-generierten Bildern mithilfe von Sättigungshinweisen. im Jahr 2019 IEEE International Conference on Image Processing (ICIP). 4584–4588. (IEEE, 2019).

Abd Elaziz, M., Dahou, A., Orabi, DA, Alshathri, S., Soliman, EM & Ewees, AAJM Ein hybrides Multitask-Lernframework mit einem Fire Hawk-Optimierer für die Erkennung gefälschter arabischer Nachrichten. Bd. 11(2). 258 (2023).

Wodajo, D. & Atnafu, SJAPA Deepfake-Videoerkennung mit Convolutional Vision Transformer (2021).

Guarnera, L., Giudice, O. & Battiato, S. Deepfake-Erkennung durch Analyse von Faltungsspuren. in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 666–667 (2020).

Nguyen, HH, Fang, F., Yamagishi, J. & Echizen, I. Multitasking-Lernen zur Erkennung und Segmentierung manipulierter Gesichtsbilder und -videos. im Jahr 2019 IEEE 10. Internationale Konferenz für Theorie, Anwendungen und Systeme der Biometrie (BTAS). 1–8. (IEEE, 2019).

Khalil, SS, Youssef, SM & Saleh, SNJFI iCaps-Dfake: Ein integriertes kapselbasiertes Modell zur Deepfake-Bild- und Videoerkennung. Bd. 13(4). 93 (2021).

Afchar, D., Nozick, V., Yamagishi, J. & Echizen, I. Mesonet: Ein kompaktes Netzwerk zur Erkennung von Gesichtsvideofälschungen. im Jahr 2018 IEEE International Workshop on Information Forensics and Security (WIFS). 1–7 (IEEE, 2018).

Wang, Y. & Dantcheva, A. Ein Video ist mehr wert als 1000 Lügen. Vergleich von 3DCNN-Ansätzen zur Erkennung von Deepfakes. im Jahr 2020 15. IEEE International Conference on Automatic Face and Gesture Recognition (FG 2020). 515–519. (IEEE, 2020).

Cozzolino, D., Thies, J., Rössler, A., Riess, C., Nießner, M. & Verdoliva, LJAPA Forensictransfer: Weakly-Supervised Domain Adaptation for Forgery Detection (2018).

Huang, G., Liu, Z., Van Der Maaten, L. und Weinberger, KQ Dicht verbundene Faltungsnetzwerke. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 4700–4708 (2017).

LeCun, Y., Bengio, Y. & Hinton, G. Deep Learning. Nature 521(7553), 436–444 (2015).

Artikel ADS CAS PubMed Google Scholar

He, K., Zhang, X., Ren, S. & Sun, J. Deep Residual Learning für die Bilderkennung. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 770–778 (2016).

Nida, N., Irtaza, A. & Ilyas, N. Erkennung gefälschter Gesichter mithilfe von ELA und Deep-Learning-Techniken. im Jahr 2021 Internationale Bhurban-Konferenz für angewandte Wissenschaften und Technologien (IBCAST). 271–275 (IEEE, 2021).

Kibriya, H., Masood, M., Nawaz, M., Rafique, R. & Rehman, S. Multiklassen-Klassifizierung von Hirntumoren mithilfe eines Faltungs-Neuronalen Netzwerks und einer Support-Vektor-Maschine. im Jahr 2021 Mohammad Ali Jinnah University International Conference on Computing (MAJICC). 1–4 (IEEE, 2021).

Kibriya, H., Masood, M., Nawaz, M. & Nazir, TJMT Multiklassenklassifizierung von Hirntumoren mithilfe einer neuartigen CNN-Architektur. Multimed. Werkzeuganwendung 81, 1–17 (2022).

Artikel Google Scholar

Salman, FM & Abu-Naser, SS Klassifizierung echter und gefälschter menschlicher Gesichter mithilfe von Deep Learning. IJAER 6(3), 1–14 (2022).

Google Scholar

Anaraki, AK, Ayati, M. & Kazemi, FJ Magnetresonanztomographie-basierte Klassifizierung und Einstufung von Hirntumorgraden über Faltungs-Neuronale Netze und genetische Algorithmen. Information 39(1), 63–74 (2019).

Google Scholar

Albawi, S., Mohammed, TA & Al-Zawi, S. Verständnis eines Faltungs-Neuronalen Netzwerks. im Jahr 2017 Internationale Konferenz für Ingenieurwesen und Technologie (ICET). 1–6 (IEEE, 2017).

O'Shea, K. & Nash, RJ Eine Einführung in Faltungs-Neuronale Netze (2015).

Szegedy, C. et al. Mit Windungen tiefer gehen. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 1–9 (2015).

Iandola, FN, Han, S., Moskewicz, MW, Ashraf, K., Dally, WJ & Keutzer, KJ SqueezeNet: Genauigkeit auf AlexNet-Ebene mit 50-fach weniger Parametern und einer Modellgröße von < 0,5 MB (2016).

He, K., Zhang, X., Ren, S. & Sun, J. Deep Residual Learning für die Bilderkennung. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA. 770–778 (2016).

Einführung in Residualnetzwerke. https://www.geeksforgeeks.org/introduction-to-residual-networks/ (2020).

Ali, L. et al. Leistungsbewertung von tiefen CNN-basierten Risserkennungs- und -lokalisierungstechniken für Betonstrukturen. Sensoren 21(5), 1688 (2021).

Artikel ADS PubMed PubMed Central Google Scholar

Ramzan, F. et al. Ein Deep-Learning-Ansatz für die automatisierte Diagnose und Mehrklassenklassifizierung von Alzheimer-Stadien mithilfe von Ruhezustands-fMRT und verbleibenden neuronalen Netzen. J. Med. Syst. 44(2), 1–16 (2020).

Artikel MathSciNet Google Scholar

Mancini, M., Costante, G., Valigi, P. & Ciarfuglia, TA Schnelle robuste monokulare Tiefenschätzung zur Hinderniserkennung mit vollständig Faltungsnetzwerken. im Jahr 2016 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). 4296–4303 (IEEE, 2016).

Kasim, N., Rahman, N., Ibrahim, Z. & Mangshor, NA Gesichtserkennung von Prominenten mithilfe von Deep Learning. Indonesischer J. Elektr. Ing. Berechnen. Wissenschaft. 12(2), 476–481 (2018).

Artikel Google Scholar

Rezgui, D. & Lachiri, Z. Biometrische EKG-Erkennung mit SVM-basiertem Ansatz. IEEJ Trans. Elektr. Elektron. Ing. 11, S94–S100 (2016).

Artikel Google Scholar

YU Computational Intelligence and Photography Lab. Echte und falsche Gesichtserkennung (2019).

Tolosana, R., Romero-Tapiador, S., Fierrez, J. & Vera-Rodriguez, R. Deepfakes-Evolution: Analyse von Gesichtsregionen und Leistung bei der Erkennung von Fakes. in der Internationalen Konferenz zur Mustererkennung. 442–456 (Springer, 2016).

Mehra, A. Deepfake-Erkennung mithilfe von Kapselnetzwerken mit Netzwerken mit langem Kurzzeitgedächtnis (Universität Twente, 2020).

Google Scholar

Mittal, H., Saraswat, M., Bansal, JC & Nagar, A. Bildklassifizierung gefälschter Gesichter unter Verwendung einer verbesserten quanteninspirierten evolutionären Merkmalsauswahlmethode. im Jahr 2020 IEEE Symposium Series on Computational Intelligence (SSCI). 989–995 (IEEE, 2020).

Chandani, K. & Arora, M. Automatische Erkennung von Gesichtsfälschungen mithilfe tiefer neuronaler Netze. in Fortschritten im interdisziplinären Ingenieurwesen. 205–214 (Springer, 2021).

Lee, S., Tariq, S., Shin, Y. & Woo, SS Erkennen handgefertigter Gesichtsbildmanipulationen und GAN-generierter Gesichtsbilder mithilfe von Shallow-FakeFaceNet. Appl. Soft Comput. 105, 107256 (2021).

Artikel Google Scholar

Referenzen herunterladen

Diese Forschung wurde vom Ministerium für Bildung, Jugend und Sport der Tschechischen Republik im Rahmen des Zuschusses SP2023/007 der VSB – Technische Universität Ostrava – unterstützt.

Fakultät für Informatik, Universität für Ingenieurwesen und Technologie, Taxila, Pakistan, 47050

Rimsha Rafique & Rashid Amin

Fakultät für Elektrotechnik, Chonnam National University, Gwangju, 61186, Südkorea

Rahma Gantassi

Institut für Informatik, Universität Chakwal, Chakwal, 48800, Pakistan

Rashid Amin

Abteilung für quantitative Methoden und Wirtschaftsinformatik, Fakultät für Betrieb und Ökonomie von Verkehr und Kommunikation, Universität Zilina, 01026, Zilina, Slowakei

Jaroslav Frnda

Abteilung für Telekommunikation, Fakultät für Elektrotechnik und Informatik, VSB Technische Universität Ostrava, 70800, Ostrava, Tschechische Republik

Jaroslav Frnda

Fakultät für Angewandte Wissenschaften und Technologie, Universiti Tun Hussein Onn Malaysia, KM1 Jalan Pagoh, 84600, Pagoh, Johor, Malaysia

Aida Mustapha

Durma College of Science and Humanities, Shaqra University, Shaqra, 11961, Saudi-Arabien

Asma Hassan Alshehri

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Alle Autoren haben gleichermaßen dazu beigetragen.

Korrespondenz mit Rashid Amin.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die Originalautor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Rafique, R., Gantassi, R., Amin, R. et al. Deep-Fake-Erkennung und -Klassifizierung mittels Fehleranalyse und Deep Learning. Sci Rep 13, 7422 (2023). https://doi.org/10.1038/s41598-023-34629-3

Zitat herunterladen

Eingegangen: 26. Dezember 2022

Angenommen: 04. Mai 2023

Veröffentlicht: 08. Mai 2023

DOI: https://doi.org/10.1038/s41598-023-34629-3

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.