Eine Studie über Computer Vision zur Erkennung von Gesichtsemotionen
HeimHeim > Nachricht > Eine Studie über Computer Vision zur Erkennung von Gesichtsemotionen

Eine Studie über Computer Vision zur Erkennung von Gesichtsemotionen

Jul 22, 2023

Wissenschaftliche Berichte Band 13, Artikelnummer: 8425 (2023) Diesen Artikel zitieren

510 Zugriffe

1 Altmetrisch

Details zu den Metriken

Künstliche Intelligenz wird in verschiedenen Bereichen erfolgreich eingesetzt, darunter auch in der Computer Vision. In dieser Studie wurde ein tiefes neuronales Netzwerk (DNN) für die Erkennung von Gesichtsemotionen (FER) eingesetzt. Eines der Ziele dieser Studie besteht darin, die kritischen Gesichtsmerkmale zu identifizieren, auf die sich das DNN-Modell für FER konzentriert. Insbesondere haben wir für die FER-Aufgabe ein Faltungs-Neuronales Netzwerk (CNN) verwendet, die Kombination aus Squeeze-and-Excitation-Netzwerk und dem Residual-Neuronalen Netzwerk. Wir nutzten AffectNet und die Real-World Affective Faces Database (RAF-DB) als Gesichtsausdrucksdatenbanken, die Lernbeispiele für CNN bereitstellen. Die Feature-Maps wurden zur weiteren Analyse aus den Restblöcken extrahiert. Unsere Analyse zeigt, dass die Merkmale um Nase und Mund wichtige Gesichtsmarkierungen für die neuronalen Netze sind. Zwischen den Datenbanken wurden datenbankübergreifende Validierungen durchgeführt. Das auf AffectNet trainierte Netzwerkmodell erreichte bei der Validierung auf der RAF-DB eine Genauigkeit von 77,37 %, während das auf AffectNet vorab trainierte und dann auf der RAF-DB erlernte Netzwerkmodell zu einer Validierungsgenauigkeit von 83,37 % führte. Die Ergebnisse dieser Studie würden das Verständnis neuronaler Netze verbessern und zur Verbesserung der Computer Vision-Genauigkeit beitragen.

In der menschlichen Kommunikation enthalten Gesichtsausdrücke wichtige nonverbale Informationen, die der verbalen Kommunikation zusätzliche Hinweise und Bedeutungen verleihen können1. Einige Studien deuten darauf hin, dass 60–80 % der Kommunikation nonverbal erfolgt2. Zu diesen nonverbalen Informationen gehören Mimik, Augenkontakt, Stimmlage, Handgesten und körperliche Distanzierung. Insbesondere die Gesichtsausdrucksanalyse ist zu einem beliebten Forschungsthema geworden3. Die emotionale Gesichtserkennung (FER) wird im Bereich der Mensch-Computer-Interaktion (HCI) in Bereichen wie Autopilot, Bildung, medizinische Behandlung, psychologische Behandlung4, Überwachung und psychologische Analyse in der Computervision5,6 eingesetzt.

In der Psychologie und Computer Vision werden Emotionen als kategoriale oder dimensionale (Valenz und Erregung) Modelle klassifiziert7,8,9. Im kategorialen Modell definierten Ekman et al.7 grundlegende menschliche Emotionen als Glück, Wut, Ekel, Angst, Traurigkeit und Überraschung. Im dimensionalen Modell wird die Emotion durch kontinuierliche numerische Skalen zur Bestimmung von Valenz und Erregung bewertet. FER ist eine wichtige Aufgabe in der Computer Vision, die zahlreiche praktische Anwendungen hat, und die Zahl der Studien zu FER hat in den letzten Jahren zugenommen10,11,12,13 und profitiert von den Fortschritten, die tiefe neuronale Netze bieten. Insbesondere Convolutional Neural Networks (CNNs) haben hervorragende Ergebnisse bei der Extraktion von Merkmalen erzielt. Beispielsweise schlugen He et al.14 im Jahr 2015 die Residual-Neural-Network-Architektur (ResNet) vor, die einem CNN Residual-Learning hinzufügte, um die Probleme des verschwindenden Gradienten und der abnehmenden Genauigkeit tiefer Netzwerke zu lösen.

Mehrere Autoren haben neuronale Netzwerkmodelle angewendet, um Emotionen nach kategorialen Modellen15,16,17,18,19,20,21,22,23 und dimensionalen Modellen15,23,24,25,26 zu klassifizieren. Huang27 wendete eine Restblockarchitektur auf ein VGG-CNN an, um eine Emotionserkennung durchzuführen, und erzielte eine verbesserte Genauigkeit. Mao et al.28 schlugen ein neues FER-Modell namens POSTER V2 vor, das darauf abzielt, die Leistung der hochmodernen Technik zu verbessern und den erforderlichen Rechenaufwand zu reduzieren, indem ein fensterbasierter Kreuzaufmerksamkeitsmechanismus und die Multifunktionalität von Gesichtsmarkierungen eingeführt werden. Maßstabsmerkmale. Um mehr Informationen in den automatischen Emotionserkennungsprozess zu integrieren, haben einige neuere Studien mehrere Modalitäten, wie z. B. die zeitlichen, akustischen und visuellen Modalitäten10,17,18,23,25, in den Algorithmus integriert. Darüber hinaus wurden Aufmerksamkeitsmechanismen in mehreren Studien17,18,19,20,22,25 für FER-Aufgaben übernommen. Zhang et al.19 verwendeten Klassenaktivierungs-Mapping, um die von ihrem Modell gelernten Aufmerksamkeitskarten zu analysieren. Es wurde festgestellt, dass das Modell reguliert werden konnte, indem seine Aufmerksamkeitskarte umgedreht und ein Teil der Eingabebilder zufällig gelöscht wurde. Wang et al.22 führten einen Aufmerksamkeitszweig ein, um eine Gesichtsmaske zu erlernen, die die diskriminierenden Teile für FER hervorhebt. Diese Studien zeigen, dass Aufmerksamkeitsmechanismen eine entscheidende Rolle bei FER spielen. Mehrere Ansätze für FER nutzen Selbstaufmerksamkeitsmechanismen, um sowohl lokale als auch globale Kontexte durch eine Reihe von Faltungsschichten zur Merkmalsextraktion zu erfassen29,30,31. Die extrahierten Merkmale werden dann als Eingaben für ein Beziehungsaufmerksamkeitsmodul verwendet, das Selbstaufmerksamkeit nutzt, um die Beziehungen zwischen verschiedenen Patches und dem Kontext zu erfassen.

Der praktische Einsatz von Gesichtserkennungssystemen bleibt jedoch aufgrund des Vorhandenseins von Rauschen, mehrdeutigen Anmerkungen32 und komplizierten Szenen in der realen Umgebung33,34,35 eine herausfordernde Aufgabe. Da sich Aufmerksamkeitsmodule für Computer-Vision-Aufgaben als wirksam erwiesen haben, ist die Anwendung von Aufmerksamkeitsmodulen auf FER-Aufgaben von großem Interesse. Darüber hinaus wurden in der Psychologie die Gesichtszüge für FER beim Menschen analysiert. Die von Beaudry et al.35 präsentierten Ergebnisse legen nahe, dass der Mund der wichtigste Orientierungspunkt bei der Beobachtung einer glücklichen Emotion ist und dass die Augen die wichtigsten Orientierungspunkte bei der Beobachtung einer traurigen Emotion sind. In ähnlicher Weise extrahiert das DNN-Modell Unterscheidungsmerkmale für FER. Es ist von Vorteil, die Klassenaktivierungszuordnung anzuwenden, um die Unterscheidungsmerkmale zu identifizieren, die das Netzwerk auf jeder Ebene gelernt hat. Es hat sich gezeigt, dass die Klassenaktivierungs-Mapping-Methode zur Lokalisierungserkennung um die Augen herum für Bewegungsanalysezwecke verwendet werden kann37,38. Die erstellten Feature-Maps könnten ein besseres Verständnis der Leistung des entwickelten Modells liefern.

In dieser Studie wurde das Squeeze-and-Excitation-Modul (SENet) mit ResNet-18 verwendet, um ein relativ leichtes Modell für FER zu erhalten. Dieses Modell verfügt über weniger trainierbare Parameter (ca. 11,27 Millionen) als die ca. 23 Millionen Parameter, die für ResNet-50 erforderlich sind, und die ca. 86 Millionen Parameter des Vision Transformers. Die Wirksamkeit des vorgeschlagenen Ansatzes wurde anhand von zwei FER-Datensätzen bewertet, nämlich AffectNet und der Real-World Affective Faces Database (RAF-DB). Beide Datensätze enthalten eine große Menge an Gesichtsemotionsdaten, darunter auch solche aus verschiedenen Kulturen und Rassen. Die Anzahl der Bilder in AffectNet ist etwa 20-mal höher als die von RAF-DB. Die Bilder in AffectNet sind vielfältiger und wilder als die in RAF-DB. Das neuronale Netzwerk wurde darauf trainiert, emotionale Informationen aus AffectNet und RAF-DB zu extrahieren. Es wurde eine datenbankübergreifende Validierung zwischen dem AffectNet-Datensatz und der RAF-DB durchgeführt. Die Ergebnisse zeigen, dass mit AffectNet eine Trainingsgenauigkeit von 79,08 % und eine Validierungsgenauigkeit von 56,54 % erreicht wurden. Mit RAF-DB wurde eine Trainingsgenauigkeit von 76,51 % und eine Validierungsgenauigkeit von 65,67 % erreicht. Das Transferlernen wurde auf RAF-DB mit vorab trainiertem Gewicht angewendet, das mit AffectNet erhalten wurde. Die Vorhersagegenauigkeit nach Transfer-Learning erhöht sich im RAF-DB-Datensatz dramatisch. Die Ergebnisse legen nahe, dass Transferlernen für kleinere Datensätze mit einer bestimmten Kultur, Region oder einem bestimmten sozialen Umfeld36 für bestimmte Anwendungen durchgeführt werden kann. Transfer-Learning ermöglicht es dem Modell, die Gesichtsemotionen einer bestimmten Population mit einer kleineren Datenbank zu lernen und genaue Ergebnisse zu erzielen. Darüber hinaus wurden die Bilder in AffectNet und RAF-DB mit einem Softmax-Score von über 90 % ausgewählt, um die wichtigen Gesichtsmerkmale zu identifizieren, die vom Netzwerk erfasst wurden. Es zeigt sich, dass in den flachen Schichten die extrahierten dominanten Merkmale feine Linien sind, wohingegen in den tiefen Schichten die Bereiche in der Nähe von Mund und Nase wichtiger sind.

Die AffectNet-Datenbank enthält 456.349 Bilder von Gesichtsemotionen, die von drei Suchmaschinen, Google, Bing und Yahoo, in sechs verschiedenen Sprachen stammen. Die Bilder wurden mit den folgenden 11 Emotionen beschriftet: Neutralität, Glück, Traurigkeit, Überraschung, Angst, Ekel, Wut, Verachtung, keine, unsicher und Gesichtslosigkeit. Unter diesen Emotionen bedeutet „unsicher“, dass das gegebene Bild nicht in eine der anderen Kategorien eingeordnet werden kann, und „ohne Gesicht“ bedeutet, dass das Bild übertriebene Ausdrücke, Animationen, Zeichnungen oder Wasserzeichen enthält. Mollahosseini et al.15 beauftragten Annotatoren mit der manuellen Klassifizierung der in AffectNet definierten Emotionen. Darüber hinaus ist AffectNet hinsichtlich der Anzahl der Bilder jeder Emotionskategorie stark unausgewogen. Beispielsweise ist die Anzahl der Bilder, die „glücklich“ darstellen, fast 30-mal höher als die Anzahl der Bilder, die „Ekel“ darstellen. Die Anzahl der Bilder für jede Kategorie ist in Tabelle 1 aufgeführt. Abbildung 1 zeigt Beispielbilder für die 11 in AffectNet enthaltenen Emotionen. In dieser Studie verwenden wir in AffectNet sieben Kategorien: Überraschung, Angst, Ekel, Wut, Traurigkeit, Glück und Neutralität.

Bildkategorien der in der AffectNet-Datenbank12 enthaltenen Gesichter.

Die RAF-DB wird vom Pattern Recognition and Intelligent System Laboratory (PRIS Lab) der Beijing University of Posts and Telecommunications39 bereitgestellt. Die Datenbank besteht aus mehr als 300.000 Gesichtsbildern aus dem Internet, die in sieben Kategorien eingeteilt sind: Überraschung, Angst, Ekel, Wut, Traurigkeit, Glück und Neutralität. Jedes der Bilder enthält 5 genaue Orientierungspunkte und 37 automatische Orientierungspunkte. Die RAF-DB enthält außerdem vielfältige Informationen zu Alter, Rasse, Kopfbewegungen, Lichteinwirkung und Blockierung. Der Trainingssatz enthält fünfmal so viele Bilder wie der Testsatz. Abbildung 2 zeigt Beispielbilder für die sieben in der RAF-DB enthaltenen Emotionen. Tabelle 1 zeigt die Anzahl der in diesem Artikel verwendeten Bilder für jede Emotion aus jeder Datenbank.

Bildkategorien der in der RAF-DB-Datenbank enthaltenen Gesichter37.

SENet ist eine neue Bilderkennungsarchitektur, die 201740 entwickelt wurde. Das Netzwerk verstärkt kritische Merkmale durch den Vergleich der Korrelationen zwischen Merkmalskanälen, um eine höhere Klassifizierungsgenauigkeit zu erreichen. Abbildung 3 zeigt die SENet-Architektur, die drei Hauptoperationen enthält. Die Squeeze-Operation extrahiert globale Merkmalsinformationen aus der vorherigen Faltungsschicht und führt ein globales Durchschnittspooling auf der Merkmalskarte durch, um einen Merkmalstensor (Z) der Größe 1 × 1 × \({\text{C}}\) (Anzahl der Kanäle) zu erhalten ), in dem das \({\text{c}} - {\text{th}}\)-Element berechnet wird durch:

wobei \(F_{sq}\) die globale durchschnittliche Pooling-Operation ist, \(u_{c}\) die zweidimensionale Matrix \({\text{c}} - {\text{th}}\), B × H stellt die Abmessungen jedes Kanals dar und C ist die Anzahl der Kanäle.

Das Schema des SENet-Inception-Moduls.

Auf Gleichung (1) folgen zwei vollständig verbundene Schichten. Die erste Schicht reduziert die Anzahl der Kanäle von \({\text{C}}\) auf \({\text{C}}/{\text{r}}\), um die erforderliche Anzahl an Berechnungen zu reduzieren (r ist die Komprimierungsrate) und die zweite Schicht erhöht die Anzahl der Kanäle auf \({\text{C}}\). Der Anregungsvorgang ist wie folgt definiert:

wobei \({\upsigma }\) die Sigmoid-Aktivierungsfunktion ist, \(\delta\) die Anregungsfunktion der gleichgerichteten linearen Einheit (ReLU) ist und \(W_{1}\) und \(W_{2}\) sind die Gewichte zum Reduzieren bzw. Erhöhen der Dimensionalität.

Die Skalierungsoperation multipliziert den Merkmalstensor mit der Anregung. Dieser Vorgang erfasst die Bedeutung jedes Kanals durch Feature-Learning. Der entsprechende Kanal wird dann mit der gewonnenen Gewichtung multipliziert, um die Haupt- und Nebeninformationen für den Computer zu unterscheiden38. Die Formel für die Skalierungsoperation, die verwendet wird, um die endgültige Ausgabe des Blocks zu erhalten, ist wie folgt dargestellt.

Dabei ist der Punkt die kanalweise Multiplikationsoperation und \(S_{c}\) die Ausgabe der Anregungsoperation.

ResNet wurde von He et al.11 vorgeschlagen, um das Problem des verschwindenden Gradienten in einem tiefen Netzwerk zu lösen. ResNet führt einen Restblock in ein herkömmliches CNN ein. Abbildung 4 zeigt den Restblock in der ResNet-Architektur. Das Konzept eines Restblocks besteht darin, die Ausgabe der vorherigen Faltungsschicht mit der nächsten Faltungsschicht im ResNet zu kombinieren. In mehreren Studien wurde gezeigt, dass die Restblöcke das Problem des verschwindenden Gradienten lindern, das bei einem tieferen Netzwerk auftritt. Daher wurden die Restblöcke in mehreren Architekturen übernommen37,38.

Restblock der ResNet-Architektur.

SE-ResNet kombiniert die oben vorgestellten SENet- und ResNet-Architekturen und fügt den SE-Block von SENet zu ResNet hinzu. Der SE-Block wird verwendet, um die Bedeutung jedes Kanals zu erfassen, um zu bestimmen, ob er größere oder kleinere Informationen enthält. Die Merkmalsinformationen der vorherigen Faltungsschicht werden dann durch den Restblock mit der nächsten Schicht kombiniert. Diese Methode kann die abnehmende Genauigkeit abmildern, die durch das Problem des verschwindenden Gradienten verursacht wird, das beim Erhöhen der Netzwerkschichten auftritt. Abbildung 5 zeigt die Netzwerkarchitektur von SE-ResNet.

Das Schema des SE-Resnet-Moduls.

In dieser Studie haben wir sieben Kategorien aus AffectNet extrahiert, um sicherzustellen, dass AffectNet und die RAF-DB mit identischen Kategorien validiert wurden. Die SE-ResNet-Architektur wurde als neuronales Netzwerkmodell für Training und Tests übernommen. Zwischen RAF-DB und AffectNet wurden ein Vergleich und eine datenbankübergreifende Validierung durchgeführt. Um eine bessere Leistung zu erzielen, wurde die Transfer-Lerntechnik eingesetzt. Das auf AffectNet trainierte Modell wurde als vorab trainiertes Modell zum Trainieren von RAF-DB verwendet.

Die aus jedem SE-Block abgeleiteten Feature-Maps wurden gedruckt, um zu bestimmen, welche Gesichtsmarkierungen wichtige Informationen für das Netzwerk enthalten. Um Objektivität und Genauigkeit zu gewährleisten, wurden nur Gesichtsemotionsbilder mit einem Softmax-Score von mehr als 90 % verwendet. Beispiele für die aus AffectNet gedruckten Feature-Maps sind in Abb. 6 dargestellt. Die aus der RAF-DB gedruckten Feature-Maps sind in Abb. 7 dargestellt.

Feature-Maps verschiedener SE-Blockschichten (AffectNet).

Feature-Maps verschiedener SE-Blockschichten (RAF-DB).

In diesem Experiment war die Trainingshardware eine NVIDIA TITAN RTX 24-GB-GPU. Die Eingabebildgröße betrug 256 × 256 Pixel mit Datenerweiterung. Für den Trainingsprozess wurden die Töne der Eingabebilder geändert. Die Bilder wurden zufällig zwischen +/− 30 Grad gedreht und entsprechend den vier Ecken und der Mitte in fünf Bilder der Größe 224 × 224 Pixel zugeschnitten. Zu Validierungszwecken wurden die Eingabebilder von der Mitte auf eine Endgröße von 224 × 224 Pixel zugeschnitten. Der Optimierungsalgorithmus und die Verlustfunktion waren der stochastische Gradientenabstieg bzw. die Kreuzentropieverlustfunktion. Es wurden 20 Epochen verwendet und die anfängliche Lernrate wurde auf 0,01 eingestellt. Der Impuls betrug 0,9 und die Batch-Größe für das Training betrug 100.

Der AffectNet-Datensatz und die RAF-DB wurden in dieser Studie datenbankübergreifend validiert. Das auf AffectNet trainierte Modell wurde zur Vorhersage von RAF-DB verwendet, und das auf RAF-DB trainierte Modell wurde zur Vorhersage von AffectNet verwendet. Die Ergebnisse sind in Tabelle 2 dargestellt. Da AffectNet eine größere Diversität in Bezug auf Gesichtsemotionsdaten und mehr Bilder aufweist, wurde bei der Vorhersage der RAF-DB durch das auf AffectNet trainierte Modell eine Genauigkeit von 77,37 % erreicht, was deutlich höher als die Genauigkeit war erreicht durch direktes Training auf der RAF-DB (65,67 %). Im Gegensatz dazu wurde für AffectNet eine geringe Genauigkeit (42,6 %) erzielt, die durch das auf der RAF-DB trainierte Modell vorhergesagt wurde. Der Unterschied lässt sich dadurch erklären, dass die Bilder in AffectNet umfangreicher und komplexer sind.

In dieser Studie wurden die von SE-ResNet auf AffectNet und RAF-DB erzielten Genauigkeiten verglichen. RAF-DB führt zu einer höheren Genauigkeit als AffectNet, wie in Tabelle 3 gezeigt. Dies war jedoch zu erwarten, da der RAF-DB-Datensatz eingeschränktere Bilder aufweist. Die Genauigkeit des vorgeschlagenen Modells auf AffectNet beträgt 56 %, was etwas niedriger ist als die 58 % Genauigkeit, die im Originalpapier19 erreicht wurde, in dem AffectNet vorgeschlagen wurde. Allerdings betrug die Übereinstimmung zwischen zwei menschlichen Annotatoren, wie im Originalpapier15 erwähnt, 60 % über 36.000 Bilder. Unser Ergebnis ist mit dieser Vereinbarungsrate vergleichbar.

Darüber hinaus führten wir Transferlernen durch, indem wir das Modell vorab auf AffectNet trainierten und anschließend auf der RAF-DB trainierten. Wie in Tabelle 4 gezeigt, erhöhte sich die Validierungsgenauigkeit der RAF-DB um 26,95 % ([(Genauigkeit mit vorab trainiertem Modell – Genauigkeit ohne vorab trainiertes Modell)/Genauigkeit ohne vorab trainiertes Modell = (83,37–65,67) / 65,67] × 100 %) und war höher als die des Modells, das direkt mit der RAF-DB trainiert wurde. Verglichen mit der Genauigkeit von 76,73 %, die 21 durch das Multiregionen-Ensemble-CNN erreicht wurde, schneidet das Transferlernen mit einem einzelnen Netzwerk besser ab als das Ensemble-CNN, das globale und lokale Merkmale nutzt. Dieses Ergebnis zeigt, dass AffectNet aufgrund der großen Vielfalt des Datensatzes nützliche vorab trainierte Gewichte bereitstellt. Der unterschiedliche kulturelle und rassische Hintergrund der Bilder im AffectNet-Datensatz bietet einen repräsentativeren und umfassenderen Trainingssatz, der zu einem robusteren und genaueren Erkennungssystem führt. Das Ergebnis unterstreicht die Bedeutung der Berücksichtigung der Datenvielfalt und des Transferlernens bei der Entwicklung und dem Einsatz von FER-Algorithmen.

Die normalisierten Verwirrungsmatrizen, die vom auf AffectNet für AffectNet und RAF-DB trainierten Modell vorhergesagt wurden, sind in Abb. 8a bzw. b dargestellt. Die vom Modell nach dem Transferlernen für RAF-DB vorhergesagten normalisierten Verwirrungsmatrizen sind in Abb. 8c dargestellt. Abbildung 8a und b zeigen, dass das Modell dazu neigt, Bilder fälschlicherweise als „neutral“ zu klassifizieren. Dies deutet darauf hin, dass die von AffectNet gelernten Unterscheidungsmerkmale zwischen „neutralen“ und anderen Kategorien ähnlich sind. Darüber hinaus zeigt der Vergleich zwischen Abb. 8b und c, dass das Modell nach dem Transferlernen die Emotionen in der RAF-DB genauer und gleichmäßiger klassifiziert.

Normalisierte Verwirrungsmatrix für AffectNet und RAF-DB (a) AffectNet, (b) RAF-DB und (c) RAF-DB mit vorab trainiertem Modell.

Aus den normalisierten Verwirrungsmatrizen ist ersichtlich, dass die Klassifizierungsgenauigkeit positiv mit der Anzahl der Bilder im Datensatz korreliert, wie in Tabelle 1 angegeben. In Abb. 8a enthält der AffectNet-Datensatz die geringste Anzahl an „Ekel“-Bildern. was zur niedrigsten Genauigkeit in der normalisierten Verwirrungsmatrix führt. Im Gegensatz dazu ist die Anzahl der Bilder der Kategorie „glücklich“ in AffectNet am höchsten und liefert daher die höchste Genauigkeit in der normalisierten Verwirrungsmatrix für diese Kategorie. Die gleiche Schlussfolgerung kann aus Abb. 8b und c für RAF-DB gezogen werden.

Diese Studie untersucht die wichtigen Merkmale, die das Netzwerk lernt, um Gesichtsemotionen zu klassifizieren. Die Feature-Maps in AffectNet mit Softmax-Scores (P) von mehr als 90 % sind in Abb. 9 dargestellt. Es wird gezeigt, dass Mund, Nase und andere Gesichtslinien wichtige Informationen darstellen, während Augen und Ohren kleinere Informationen liefern. Dies ähnelt den Ergebnissen von Beaudry et al.35, dass der Mund der wichtigste Orientierungspunkt ist, wenn das neuronale Netzwerk eine glückliche Emotion vorhersagt. Die Merkmalskarten falsch klassifizierter Bilder werden in Abb. 10 auch für Vergleiche mit korrekt klassifizierten Bildern visualisiert. Durch die Betrachtung der Merkmalskarten falsch klassifizierter Bilder wird deutlich, dass die wichtigen Merkmale in den Bildern denen in den korrekt klassifizierten Bildern ähneln. Es kann aus den Abb. beobachtet werden. 9 und 10 zeigen, dass das Netzwerk dazu neigt, Kanten und Linien in flachen Schichten zu erkennen und sich in tieferen Schichten eher auf lokale Merkmale wie Mund und Nase konzentriert.

Feature-Maps mit einem Softmax-Score von mehr als 90 % (AffectNet).

Falsch klassifizierte Feature-Maps (AffectNet).

Der asiatische Gesichtsemotionsdatensatz41 besteht aus Bildern von 29 Schauspielern im Alter von 19 bis 67 Jahren. Die Bilder wurden von vorne, von der 3/4-Seite und aus seitlichen Winkeln aufgenommen. Abbildung 11 zeigt einige Beispielbilder aus dem asiatischen Gesichtsemotionsdatensatz. Die Anzahl der Bilder jeder Klasse ist in Tabelle 5 angegeben. In diesem Datensatz gibt es nur sechs gekennzeichnete Kategorien. Die Kategorie „Neutralität“ ist in diesem Datensatz nicht enthalten. Daher wurde in der Ausgabeschicht des Modells, das darauf trainiert wurde, die Wahrscheinlichkeiten von 7 Kategorien vorherzusagen, die Wahrscheinlichkeit für „Neutralität“ als Null angegeben.

Beispielbilder aus dem asiatischen Gesichtsemotionsdatensatz39.

Der asiatische Gesichtsemotionsdatensatz wurde mit dem auf AffectNet trainierten Modell getestet. Die Größe der Bilder wurde auf 256 × 256 Pixel geändert und dann mit zentrierten Gesichtern auf 224 × 224 Pixel zugeschnitten. Die abgeleitete durchschnittliche Genauigkeit betrug 61,99 % und war damit etwas höher als die von AffectNet. Ähnlich wie bei den Validierungsergebnissen von AffectNet erzielte die Kategorie „glücklich“ die höchste Punktzahl, während „Angst“ und „Ekel“ die niedrigsten Werte aufwiesen. Die normalisierte Verwirrungsmatrix ist in Abb. 12 dargestellt, und die Merkmalskarten sind in Abb. 13 dargestellt. Im Gegensatz zu den Merkmalskarten von AffectNet waren die diskriminierenden Orte nicht um Mund und Nase herum zentriert, sondern befanden sich eher in der rechten Hälfte des Gesichts. Es zeigt, dass das Modell im Laborumfeld nicht für asiatische Gesichter verallgemeinerbar war. Dieses Experiment zeigt, dass das auf AffectNet trainierte Modell eine begrenzte Vorhersageleistung für andere Datensätze aufweist.

Normalisierte Verwirrungsmatrix, die für den asiatischen Gesichtsemotionsdatensatz erstellt wurde, der mit dem auf AffectNet trainierten Modell getestet wurde.

Für den asiatischen Gesichtsemotionsdatensatz erstellte Feature-Maps.

Auch die Interpretation der Mimik unterliegt kulturellen und individuellen Unterschieden, die das Modell in der Trainingsphase nicht berücksichtigt. Die Feature-Maps in Abb. Die Abbildungen 9 und 10 zeigen, dass sich das vorgeschlagene Modell mehr auf Mund und Nase, aber weniger auf die Augen konzentrierte. Um korrekte FER-Ergebnisse zu erhalten, können auch subtile Merkmale wie Falten und Augen von entscheidender Bedeutung sein. Das vorgeschlagene Modell erfasst jedoch keine Merkmale, die weit vom Mund oder der Nase entfernt sind. Die mit dem asiatischen Gesichtsemotionsdatensatz erhaltenen Testergebnisse zeigen, dass die diskriminierenden Regionen zur rechten Gesichtshälfte hin verzerrt sind. Dieser Befund weist darauf hin, dass das Modell im Laborumfeld nur begrenzt auf asiatische Gesichter anwendbar ist. Obwohl AffectNet ein vielfältiger Datensatz ist, der Darstellungen verschiedener Kulturen und Rassen enthält, ist er immer noch auf einen winzigen Teil der Weltbevölkerung beschränkt. Im Gegensatz dazu enthält die RAF-DB ähnliche ethnische Gruppen und Einstellungen wie AffectNet. Die mit der RAF-DB erhaltenen Validierungsergebnisse (77,37 %) sind besser als die mit dem asiatischen Gesichtsemotionsdatensatz. Die Ergebnisse zeigen, dass für Datensätze mit ähnlichen ethnischen Gruppen das Modell, das auf einem vielfältigeren und wilderen Datensatz (AffectNet) trainiert wurde, eine bessere Vorhersage für einen eingeschränkteren Datensatz (die RAF-DB in dieser Arbeit) liefert.

In dieser Studie wird untersucht, wie das neuronale Netzwerkmodell lernt, Gesichtsemotionen zu identifizieren. Die auf Emotionsbildern angezeigten Merkmale wurden mit einem CNN abgeleitet und diese emotionalen Merkmale wurden visualisiert, um die Gesichtsmerkmale zu bestimmen, die wichtige Informationen enthalten. Die auf der Grundlage der Ergebnisse gezogenen Schlussfolgerungen sind unten aufgeführt.

Für AffectNet und RAF-DB wurde ein datenbankübergreifendes Validierungsexperiment durchgeführt. Eine Genauigkeit von 77,37 % wurde erreicht, als die RAF-DB durch das auf AffectNet trainierte Modell vorhergesagt wurde. Die Genauigkeit ist vergleichbar mit dem Ergebnis in21. Eine Genauigkeit von 42,6 % wurde erreicht, als AffectNet durch das auf RAF-DB trainierte Modell vorhergesagt wurde. Diese Ergebnisse stimmen mit der Tatsache überein, dass AffectNet hinsichtlich der Bilder von Gesichtsemotionen eine größere Diversität aufweist als RAF-DB. Darüber hinaus erhöht Transferlernen die Genauigkeit für RAF-DB um 26,95 %. Das Ergebnis unterstreicht die Bedeutung des Einsatzes von Transferlernen zur Verbesserung der Leistung von FER-Algorithmen durch Training der zugehörigen Modelle auf AffectNet für vorab trainierte Gewichte.

Die visualisierten Emotionsmerkmalskarten zeigen, dass Mund und Nase die Hauptinformationen enthalten, während Augen und Ohren die Nebeninformationen enthalten, wenn das neuronale Netzwerk lernt, FER durchzuführen. Dieses Paradigma ähnelt der Art und Weise, wie der Mensch Emotionen beobachtet.

Beim Vergleich der korrekt klassifizierten Feature-Maps (solche mit Softmax-Scores über 90 %) mit denen, die falsch klassifiziert wurden, ist ersichtlich, dass sich das Netzwerkmodell auf ähnliche Features ohne größere Unterschiede konzentriert. Dieses Ergebnis weist darauf hin, dass FER die Beobachtung großer Flecken in der Nähe markanter Bereiche auf einem Gesicht erfordert.

Die in dieser Studie verwendeten Datensätze sind mit Genehmigung auf den folgenden Websites für AffectNet (http://mohammadmahoor.com/affectnet/), der Real-World Affective Faces Database (RAF-DB; http://www.whdeng.cn), verfügbar /raf/model1.html) und der asiatische Gesichtsemotionsdatensatz (http://mil.psy.ntu.edu.tw/ssnredb/logging.php?action=login). Allerdings gelten Einschränkungen hinsichtlich der Verfügbarkeit dieser Daten, die für die aktuelle Studie unter Lizenz verwendet wurden und daher nicht öffentlich zugänglich sind. Die Daten sind jedoch auf begründete Anfrage und mit Genehmigung von AffectNet, der RAF-DB und dem asiatischen Gesichtsemotionsdatensatz bei den Autoren erhältlich. Die Trainings- und Analyseprozesse werden in der Forschungsmethodik besprochen.

Vo, TH, Lee, GS, Yang, HJ & Kim, SH Pyramid mit Superauflösung für die Erkennung von Gesichtsausdrücken in freier Wildbahn. IEEE Access 8, 131988–132001 (2020).

Artikel Google Scholar

Mehrabian, A. Nonverbale Kommunikation (Aldine Transaction, 2007).

Ekman, P. Darwin, Täuschung und Gesichtsausdruck. Ann. NY Acad. Wissenschaft. 1000, 205–2 (Courtley & Jridi, 2020) (2006).

Farzaneh, AH & Qi,

Alnuaim, AA et al. Mensch-Computer-Interaktion zur Erkennung von Sprachemotionen mithilfe eines mehrschichtigen Perzeptron-Klassifikators. J. Healthc. Ing. 2022, 6005446 (2022).

Artikel PubMed PubMed Central Google Scholar

Kumari, HMLS Gesichtsausdruckerkennung mithilfe eines Faltungs-Neuronalen Netzwerks zusammen mit Datenerweiterung und Transferlernen (2022).

Ekman, P., Dalgleish, T. & Power, M. Handbook of Cognition and Emotion (Wiley, 1999).

Ekman, P. Gibt es grundlegende Emotionen? Psychol. Rev. 99, 550–553 (1992).

Artikel CAS PubMed Google Scholar

Russell, JA Ein zirkumplexes Affektmodell. J. Pers. Soc. Psychol. 39, 1161–1178 (1980).

Artikel Google Scholar

Goodfellow, IJ et al. Herausforderungen beim Repräsentationslernen: Ein Bericht über drei Wettbewerbe für maschinelles Lernen in der neuronalen Informationsverarbeitung (Hrsg. Lee, M., Hirose, A., Hou, Z. & Kil, R) 117–124 (Springer, 2013).

Maithri, M. et al. Automatisierte Emotionserkennung: Aktuelle Trends und Zukunftsperspektiven. Berechnen. Methode Prog. Biomed. 215, 106646 (2022).

Artikel CAS Google Scholar

Li, S. & Deng, W. Tiefe Gesichtsausdruckerkennung: Eine Umfrage. IEEE Trans. Beeinflussen. Berechnen. 13, 1195–1215 (2022).

Artikel Google Scholar

Canal, FZ et al. Eine Umfrage zu Techniken zur Erkennung von Gesichtsemotionen: Eine aktuelle Literaturübersicht. Inf. Wissenschaft. 582, 593–617 (2022).

Artikel Google Scholar

He, K., Zhang,

Mollahosseini, A., Hasani, B. & Mahoor, MH AffectNet: Eine Datenbank für die Berechnung von Gesichtsausdruck, Valenz und Erregung in freier Wildbahn. IEEE Trans. Beeinflussen. Berechnen. 10, 18–31 (2019).

Artikel Google Scholar

Schoneveld, L. & Othmani, A. Auf dem Weg zu einem allgemeinen Deep-Feature-Extraktor für die Erkennung von Gesichtsausdrücken im Jahr 2021, IEEE International Conference on Image Processing (ICIP) 2339–2342 (IEEE, 2021).

Rajan, V., Brutti, A. & Cavallaro, A. Ist Kreuzaufmerksamkeit der Selbstaufmerksamkeit für die multimodale Emotionserkennung vorzuziehen? in ICASSP 2022–2022 Internationale IEEE-Konferenz für Akustik, Sprache und Signalverarbeitung (ICASSP) 4693–4697 (IEEE, 2022).

Zhuang, X., Liu, F., Hou, J., Hao, J. & Cai, X. Transformatorbasiertes interaktives multimodales Aufmerksamkeitsnetzwerk zur Erkennung von Videostimmungen. Neuronaler Prozess. Lette. 54, 1943–1960 (2022).

Artikel Google Scholar

Zhang, Y., Wang, C., Ling, , Cissé, M., Farinella, GM & Hassner T.) 418–434 (Springer, 2022).

Savchenko, AV, Savchenko, LV & Makarov, I. Klassifizierung von Emotionen und Engagement beim Online-Lernen basierend auf einem einzigen neuronalen Netzwerk zur Gesichtsausdruckerkennung. IEEE Trans. Beeinflussen. Berechnen. 13, 2132–2143 (2022).

Artikel Google Scholar

Fan, Y., Lam, JCK & Li, VOK Multiregionales Ensemble-Faltungs-Neuronales Netzwerk zur Erkennung von Gesichtsausdrücken in künstlichen neuronalen Netzen und maschinellem Lernen – ICANN 2018 (Hrsg. Kůrková, V., Manolopoulos, Y., Hammer, B. , Iliadis, L. & Maglogiannis, I.) 84–94 (Springer International Publishing, 2018).

Wang, Z., Zeng, F., Liu, S. & Zeng, B. OAENet: Orientiertes Aufmerksamkeitsensemble für eine genaue Erkennung von Gesichtsausdrücken. Mustererkennung. 112, 107694 (2021).

Artikel Google Scholar

Schoneveld, L., Othmani, A. & Abdelkawy, H. Nutzung der jüngsten Fortschritte im Deep Learning für die audiovisuelle Emotionserkennung. Mustererkennung. Lette. 146, 1–7 (2021).

Artikel ADS Google Scholar

Hwooi, SKW, Othmani, A. & Sabri, AQM Deep-Learning-basierter Ansatz zur kontinuierlichen Affektvorhersage aus Gesichtsausdrucksbildern im Valenz-Erregungs-Raum. IEEE Access 10, 96053–96065 (2022).

Artikel Google Scholar

Sun, L., Lian, Z., Tao, J., Liu, B. & Niu, M. Multimodale kontinuierliche dimensionale Emotionserkennung unter Verwendung eines wiederkehrenden neuronalen Netzwerks und eines Selbstaufmerksamkeitsmechanismus in Proceedings of the 1st International zur multimodalen Sentimentanalyse in Real-Life-Media-Challenge und Workshop 27–34 (ACM, 2020).

Allognon, SOC, de S. Britto, A. & Koerich, AL Kontinuierliche Emotionserkennung über Deep Convolutional Autoencoder und Support Vector Regressor auf der internationalen gemeinsamen Konferenz über neuronale Netze (IJCNN) 1–8 (IEEE, 2020).

Huang, C. Kombination von Faltungs-Neuronalen Netzen zur Emotionserkennung auf der IEEE MIT Undergraduate Research Technology Conference (URTC) 1–4 (IEEE, 2017).

Mao, J. et al. POSTER V2: Ein einfacheres und stärkeres Netzwerk zur Erkennung von Gesichtsausdrücken. arXiv-Vorabdruck arXiv:2301.12149 (2023).

Le, N. et al. Unsicherheitsbewusstes Lernen der Etikettenverteilung für die Erkennung von Gesichtsausdrücken auf der IEEE/CVF-Winterkonferenz 2023 zu Anwendungen von Computer Vision (WACV) 6088–6097 (IEEE, 2023).

Singh, S. & Prasad, SVAV Techniken und Herausforderungen der Gesichtserkennung: Eine kritische Rezension. Proz. Berechnen. Wissenschaft. 143, 536–543 (2018).

Artikel Google Scholar

Kortli, Y., Jridi, M., Falou, AA & Atri, M. Gesichtserkennungssysteme: Eine Umfrage. Sensoren (Basel, Schweiz) 20, 342 (2020).

Artikel ADS PubMed Google Scholar

Shirazi, MS & Bati, S. Evaluierung der handelsüblichen CNNs zur Gesichtsausdruckerkennung in Lecture Notes in Networks and Systems (Hrsg. Arai, K.) 466–473 (Springer, 2022).

Chen, D., Wen, G., Li, H., Chen, R. & Li, C. Multibeziehungsbewusstes Netzwerk zur Gesichtsausdruckserkennung in freier Wildbahn. IEEE Trans. Schaltungen Syst. Videotechnik. https://doi.org/10.1109/tcsvt.2023.3234312 (2023).

Artikel Google Scholar

Heidari, N. & Iosifidis, A. Erlernen vielfältiger Merkmalsdarstellungen zur Gesichtsausdruckserkennung in freier Wildbahn. arXiv-Vorabdruck arXiv:2210.09381 (2022).

Beaudry, O., Roy-Charland, A., Perron, M., Cormier, I. & Tapp, R. Merkmalsverarbeitung bei der Erkennung emotionaler Gesichtsausdrücke. Cogn. Emot. 28, 416–432 (2013).

Artikel PubMed Google Scholar

Bhattacharyya, A. et al. Ein Deep-Learning-Modell zur Klassifizierung menschlicher Gesichtsausdrücke anhand von Infrarot-Wärmebildern. Wissenschaft. Rep. 11, 20696 (2021).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Alp, N. & Ozkan, H. Neuronale Korrelate von Integrationsprozessen während der dynamischen Gesichtswahrnehmung. Wissenschaft. Rep. 12, 118 (2022).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Siddiqi, MH Präzises und robustes Gesichtsausdruckerkennungssystem unter Verwendung von YouTube-basierten Echtzeit-Datensätzen. Appl. Intel. 48, 2912–2929 (2018).

Artikel Google Scholar

Li, S., Deng, WH & Du, JP Zuverlässiges Crowdsourcing und tiefgreifendes, ortserhaltendes Lernen für die Ausdruckserkennung in freier Wildbahn auf der IEEE-Konferenz 2017 über Computer Vision und Mustererkennung (CVPR) 2584–2593 (IEEE, 2017).

Hu, J., Shen, L. & Sun, G. Squeeze-and-Excitation-Netzwerke auf der IEEE/CVF-Konferenz 2018 zu Computer Vision und Mustererkennung 7132–7141 (IEEE, 2018).

Chen, CC, Cho, SL & Tseng, RY Taiwan-Korpora chinesischer Emotionen und relevante psychophysiologische Daten – Verhaltensbewertungsnorm für Gesichtsausdrücke professioneller Künstler. Kinn. J. Psychol. 55, 439–454 (2013).

Google Scholar

Referenzen herunterladen

Diese Arbeit wurde teilweise vom National Science and Technology Council finanziert (Projektnummer MOST 111-2635-E-242-001 -).

Fakultät für Maschinenbau, Nationale Kaohsiung-Universität für Wissenschaft und Technologie, Kaohsiung, Taiwan

Zi-Yu Huang, Chia-Chin Chiang und Hsin-Lung Chung

Graduierteninstitut für Angewandte Physik, National Chengchi University, Taipei, Taiwan

Jian-Hao Chen & Hsiu-Chuan Hsu

Abteilung für Arbeitssicherheit und Hygiene, Fooyin-Universität, Kaohsiung, Taiwan

Yi-Chian Chen

Abteilung für Krankenpflege, Hsin Sheng Junior College für medizinische Versorgung und Management, Taoyuan, Taiwan

Yu-Ping Cai

Fakultät für Informatik, Nationale Chengchi-Universität, Taipeh, Taiwan

Hsiu-Dann Hsu

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Z.-Y. Huang trug zum Schreiben des Manuskripts bei. C.-C. Chiang trug zur Überwachung und Fertigstellung des Papiers bei. J.-H. Chen führte alle Berechnungen durch und leistete als Erstautor gleichermaßen einen Beitrag. Y.-C. Chen trug zur Gestaltung der Recherche und zur Bearbeitung des Manuskripts bei. H.-L. Chung trug zur Bearbeitung des Manuskripts bei. Y.-PC bewertete den Bereich der Emotionsklassifizierung und trug zur Literaturrecherche bei. H.-CH hat die Studie entworfen und konzeptionell begleitet. Alle Autoren diskutierten und überprüften das Manuskript.

Korrespondenz mit Yi-Chian Chen oder Hsiu-Chuan Hsu.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die Originalautor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Huang, ZY., Chiang, CC., Chen, JH. et al. Eine Studie über Computer Vision zur Erkennung von Gesichtsemotionen. Sci Rep 13, 8425 (2023). https://doi.org/10.1038/s41598-023-35446-4

Zitat herunterladen

Eingegangen: 08. Dezember 2022

Angenommen: 18. Mai 2023

Veröffentlicht: 24. Mai 2023

DOI: https://doi.org/10.1038/s41598-023-35446-4

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.