Blinken - Zhejiang Lime Grove Group

Scientific Reports Band 13, Artikelnummer: 7961 (2023) Diesen Artikel zitieren

302 Zugriffe

Details zu den Metriken

Augenbasierte Kommunikationssprachen wie Blink-To-Speak spielen eine Schlüsselrolle beim Ausdruck der Bedürfnisse und Emotionen von Patienten mit Motoneuron-Erkrankungen. Die meisten erfundenen augenbasierten Trackingsysteme sind komplex und in Ländern mit niedrigem Einkommen nicht erschwinglich. Blink-To-Live ist ein Eye-Tracking-System, das auf einer modifizierten Blink-To-Speak-Sprache und Computer Vision für Patienten mit Sprachbehinderungen basiert. Eine Mobiltelefonkamera verfolgt die Augen des Patienten, indem sie Echtzeit-Videobilder an Computer-Vision-Module sendet, um Gesichtsmerkmale zu erkennen, Augen zu identifizieren und zu verfolgen. In der augenbasierten Kommunikationssprache Blink-To-Live gibt es vier definierte Tastenalphabete: Links, Rechts, Oben und Blinken. Diese Augengesten kodieren mehr als 60 alltägliche Lebensbefehle, die durch eine Abfolge von drei Augenbewegungszuständen ausgedrückt werden. Sobald die durch Augengesten kodierten Sätze generiert sind, zeigt das Übersetzungsmodul die Sätze in der Muttersprache des Patienten auf dem Telefonbildschirm an und die synthetisierte Stimme kann gehört werden. Ein Prototyp des Blink-To-Live-Systems wird anhand von Normalfällen mit unterschiedlichen demografischen Merkmalen evaluiert. Im Gegensatz zu den anderen sensorbasierten Eye-Tracking-Systemen ist Blink-To-Live einfach, flexibel und kosteneffizient, ohne Abhängigkeit von spezifischen Software- oder Hardwareanforderungen. Die Software und ihre Quelle sind im GitHub-Repository verfügbar (https://github.com/ZW01f/Blink-To-Live).

Amyotrophe Lateralsklerose (ALS) und primäre Lateralsklerose (PLS) sind fortschreitende Neuronenerkrankungen, die das Gehirn und die Rückenmarkszellen betreffen und nach und nach zum Verlust der Muskelkontrolle führen und Symptome einer Sprachbeeinträchtigung entwickeln. Patienten können in späteren Krankheitsstadien über Augengesten mit ihren Betreuern kommunizieren1,2. Durch die Übersetzung von Augengesten in eine kommunizierte Sprache entstand eine Vielzahl von Augmentative/Alternative Communication (AAC)-Geräten mit unterschiedlichen Designs und Benutzerfreundlichkeitskonzepten, die von Bedienfeldern mit Buchstaben und Zahlen über Berührungs- und Blickerkennungsbildschirme bis hin zu Eye-Tracking-Systemen und dementsprechend modifizierten Mauszeigern reichen Es werden Techniken zur Steuerung verschiedener Computeranwendungen vorgestellt. Kommerzielle Tastaturen mit Blickerkennung sind sehr teuer; Beispielsweise liegen die Kosten für Tobii Dyanvox3 je nach Konfigurationsmodell zwischen 5.000 und 10.000 US-Dollar. Das Eye Transfer4 (E-tran)-Board ist eine alternative, kostengünstige Lösung (260 US-Dollar), bei der eine Pflegekraft eine transparente Kunststofftafel mit gedruckten Buchstaben hält und die Augenbewegungen des Patienten auf der Tafel beobachtet. Die am Kopf montierten Eye-Gaze-Tracker5 erforderten einige statische, angepasste Einstellungen entsprechend der Kamera und dem Auge des Patienten während der Kopfbewegung.

Gedanken und Absichten sind ein weiterer Kommunikationsansatz für Patienten mit Sprachbehinderungen. Bei der Brain-Computer-Schnittstelle (BCI) wird Gehirnaktivität (d. h. EEG-Signale) genutzt, um externe Geräte zu steuern, beispielsweise das Eingeben von Wörtern durch Auswählen von Buchstaben auf einer digitalen Tastatur6 oder das Ausführen komplexer Aufgaben wie das Durchsuchen einer Webseite7 oder das Malen eines Bildes8. Einige Gehirnbuchstabierer haben unterschiedliche Kommunikationsraten9,10, die in letzter Zeit durch die Kombination des Sprachmodells und des Deep Learning zugenommen haben11,12. Forschungsstudien ergaben, dass die meisten ALS/PLS-Patienten eine gute Akzeptanzrate für den Einsatz von Technologien haben, die auf Eye-Tracking basieren, um die Kommunikation mit ihrer Umgebung zu initiieren13,14,15, und die Verfolgung der Augen des Patienten ist viel einfacher als die Verfolgung oder Erkennung anderer Signale, wie z EEG/EKG16,17.

Patienten mit Sprachbehinderungen verlieren ihre natürlichen Sprechfähigkeiten18. Dementsprechend werden viele modifizierte Sprechsprachen vorgeschlagen, die die verfügbaren beweglichen Organe wie den Kopf, Gesichtsgesten, Augen oder Gehirnsignale nutzen19,20. Augenbasierte Kommunikationssprachen werden in verschiedenen Formen eingeführt, die unterschiedliche Augengesten kodieren, um eine kommunizierte Sprache einfach und effizient zu synthetisieren21,22,23. Morsecode ist einer der vorgeschlagenen Ansätze zur Kodierung des kurzen und langen Augenzwinkerns als Folge von Punkten und Strichen, und die Alphabete/Sätze werden entsprechend aufgebaut22,23. Blink-To-Speak ist eine weitere vorgeschlagene Augensprache mit acht Alphabeten entsprechend acht Augengesten (Schließen, Blinzeln, Links, Rechts, Oben, Unten, Zwinkern und Rollen). Die häufigsten Phrasen des täglichen Lebens (d. h. 50 Befehle) werden mithilfe dieser definierten Augenalphabete in einem Online-Buch in verschiedenen Muttersprachen kodiert, um den Patienten/Pflegekräften den einfachen und effizienten Umgang mit der Sprache zu schulen und beizubringen24. Die meisten der vorgeschlagenen Augensprachen für Sprachbehinderungen werden in speziellen Hardwaregeräten mit spezifischen Sensoren implementiert (Brillen mit Infrarot, Blicktastaturen, am Kopf montierte Eyetracker usw.), die den Kommunikationsprozess erschweren und für die Patienten weniger benutzerfreundlich und zugänglich sind Betreuer14,25,26. Außerdem sind einige dieser Geräte teuer und in Ländern mit niedrigem Einkommen wie Ägypten nicht erschwinglich.

Darüber hinaus ist das Augenzwinkern der einzige berücksichtigte Zustand in der zuvor vorgeschlagenen Augensprache, was die Benutzerfreundlichkeit der Anwendung einschränken kann, indem andere Augengesten (z. B. links, oben, rechts usw.) verworfen werden, die mehr unterschiedliche Phrasen und Befehle für das tägliche Leben kodieren können14 ,22,23. Während die Blink-To-Speak-Augensprache über mehr Alphabete verfügt als andere augenbasierte Kommunikationssprachen, die mehr Phrasen kodieren können, können die Pflegekräfte die beabsichtigte Sprache des Patienten nur durch Beobachtung seiner Augen verstehen, und die Patienten/Pflegekräfte werden durch ein Handbuch geschult die Sprache sprechen/verstehen. Außerdem können die definierten kommunizierten Sätze im Buch eine lange Abfolge unterschiedlicher Augengesten aufweisen, die mehr Trainingszeit erfordern und die Augen des Patienten ermüden können.

In diesem Artikel haben wir Blink-To-Live vorgeschlagen, ein Eye-Tracking-System basierend auf einer modifizierten Blink-To-Speak-Sprache für Patienten mit Sprachbehinderungen. Ein tragbares Mobilgerät mit unterstützten Kameras erfasst Echtzeit-Videobilder und sendet sie an Computer-Vision-Module zur Erkennung von Gesichtspunkten, Augenidentifikation und -verfolgung. Das Blink-To-Live-Kommunikationssystem verfügt über vier Augenbewegungen: links, rechts, oben und Blinzeln. Diese Augengesten kodieren mehr als 60 alltägliche Lebensbefehle, die durch eine Abfolge von drei Augenbewegungen ausgedrückt werden. Die Sprachgenerierungs- und Übersetzungsmodule dekodieren die erkannten Augenbewegungen in entsprechende Phrasen, zeigen sie auf dem mobilen Bildschirm in der Muttersprache des Patienten an und seine synthetisierte Stimme kann entsprechend gehört werden. Im Gegensatz zu den anderen sensorbasierten Eye-Tracking-Systemen ist Blink-To-Live einfach, flexibel und kosteneffizient, ohne Abhängigkeit von spezifischen Software- oder Hardwareanforderungen. Außerdem verfügt die vorgeschlagene augenbasierte Kommunikationssprache im Vergleich zum ursprünglichen Blink-To-Speak über mehr Befehle mit einer kurzen Abfolge von Augenbewegungen, um die Benutzerfreundlichkeit zu erhöhen und es dem Patienten zu ermöglichen, in kürzerer Trainingszeit schneller zu sprechen.

Unser Artikel ist wie folgt gegliedert: Abschnitt „Verwandte Arbeiten“ bietet eine Zusammenfassung der zuvor verwandten Arbeiten, Abschnitt „Materialien und Methoden“ präsentiert das Gesamtbild unserer vorgeschlagenen Systemarchitektur mit ihren internen Modulen und Untermodulen, die im Detail besprochen werden In den folgenden Unterabschnitten zeigt der Abschnitt „Experimentelle Ergebnisse“ die wichtigsten experimentellen Ergebnisse unseres vorgeschlagenen Kommunikationssystems, einschließlich verschiedener Benutzeroberflächen, grundlegender Dienste für Patienten/Pflegekräfte sowie verschiedener Fragen der Benutzerfreundlichkeit und Zugänglichkeit. Der Abschnitt „Schlussfolgerung“ schließt das Papier ab und beleuchtet einige zukünftige Aspekte Erkenntnisse zur Verbesserung des Blink-To-Live-Systems.

Eye-Tracking-Technologien werden in vielen Wissenschaften wie Kognition, Psychologie, Computer und Medizin eingesetzt, um zu digitalisieren, wie Menschen mit ihrer Lebensumgebung interagieren27,28. Die Verfolgung menschlicher Augen, was die Aufzeichnung ihrer unterschiedlichen Bewegungen bedeutet, ist für viele allgegenwärtige Anwendungen wie augenbasierte Kommunikation und Interaktionen mit der Computerumgebung von entscheidender Bedeutung29,30. Bisher wurden drei Arten von Eye-Tracking-Ansätzen eingeführt (siehe Abb. 1): Der eine basiert auf Geräten, die direkt an den Augen befestigt werden, etwa spezielle Linsen oder Brillen mit Infrarotsensoren, die die Augenpositionen verfolgen und aufzeichnen. Der zweite Ansatz zielt auf die Augen als Quelle elektrischer Felder ab, die in der Dunkelheit auch dann erkannt werden können, wenn das Auge geschlossen ist, und misst die elektrischen Potentiale durch die Positionierung einiger Elektroden um das menschliche Auge. Ein Beispiel für diesen Ansatz ist die Elektrookulogramm-Technik (EOG)22 ,27. Da die beiden zuvor genannten Ansätze auf einigen Sensoren wie Infrarot oder Elektroden basieren, können sie unter dem Begriff sensorbasierte Eye-Tracking-Technologien zusammengefasst werden. Die anderen Eye-Tracking-Methoden basieren auf Computer-Vision-Techniken zur Erkennung und Verfolgung der menschlichen Augen in den von einer Kamera aufgenommenen Videobildern in Echtzeit ohne direkten Kontakt mit menschlichen Augen oder unter Verwendung zusätzlicher Hardware-Sensoren31,32,33.

Eye-Tracking-Systeme für Patienten mit Sprachbehinderungen.

Eine vorgeschlagene Mensch-Computer-Interaktionsmethode besteht darin, fast fünf Elektroden um die Augen der Patienten zu positionieren, um deren Blinzeln und Bewegungen zu erkennen und so den Cursor und verschiedene Desktop-Anwendungen zu steuern34,35.‏ ‏Einige Anwendungen verfügen über eine Benutzeroberfläche mit einer Tastatur, um den Patienten dies zu ermöglichen Verwenden Sie ihre Augen, um die beabsichtigten Buchstaben zu betrachten und wählen Sie sie anhand von Augenzwinkern und Bewegungen für einen vordefinierten Zeitraum (z. B. eine Sekunde) aus. Außerdem können Elektromyographiesysteme Gesichtsmuskelsignale erkennen und den Mauszeiger und Computeranwendungen entsprechend steuern36. Die Augengesten und Signale der Gesichtsmuskeln werden einbezogen, um die Zuverlässigkeit von Anwendungen zu erhöhen, die Menschen mit Sprachbehinderungen bei der Kommunikation und Cursorsteuerung unterstützen. Obwohl die Kombination dieser beiden Techniken eine hohe Genauigkeit bietet, sind die Kommunikationsgeschwindigkeit und die hohen Kosten dennoch gering22. Der Ansatz des direkten Augenkontakts zielt darauf ab, Hardwaregeräte wie Brillen mit einem Infrarotsensor zu entwerfen, der Augenzwinkern mithilfe eines Morsecodes in eine Folge von Alphabeten übersetzt, mit Variationen, bei denen die Alphabete auf dem LCD-Bildschirm23 oder die synthetisierten Phrasen auf einem Mobiltelefon angezeigt werden Telefonbildschirm22. EyeLive37 ist ein weiteres Eye-Tracking-System, das auf der Messung von Augenreflexionen durch den Infrarotsensor basiert. Das System verfügt über eine Benutzeroberfläche mit Tastatur, über die der Patient mithilfe seiner Augengesten die gewünschten Buchstaben auswählen kann. Während der Infrarotsensor die Erkennung von Augengesten erleichtert, indem er das von den Augen reflektierte Licht erhöht, weist er einige Einschränkungen auf, z. B. Störungen durch Sonnenlicht bei Verwendung im Freien, und die relative Augenpositionierung des Infrarotsensors wirkt sich auf die Tracking-Leistung aus. Die Ansätze mit direktem Blickkontakt verursachen zusätzliche Kosten durch die Verwendung externer Hardwaregeräte für die Blickverfolgung mit geringerer Zuverlässigkeit und Robustheit aufgrund ungenauer Sensormessungen.

Einige Techniken des maschinellen Lernens werden eingeführt, um das menschliche Auge zu erkennen und zu verfolgen, beispielsweise die Hauptkomponentenanalyse, die die sechs Hauptkomponenten des ersten Auges in den aufgenommenen Bildern erkennt. Die Pupillenposition des Auges wird mithilfe des künstlichen neuronalen Netzwerkmodells38 klassifiziert. Das System erforderte eine spezielle Hardwarekonfiguration wie eine am Kopf montierte Kamera und das Tragen einer Brille, die den Kommunikationsprozess erschwerten. Einige Modelle für maschinelles Lernen werden verwendet, um die Richtungen, Blickwinkel und Bewegungen des Auges vorherzusagen, z. B. Adaptive Linear Regression (ALR39), K Nearest Neighbors (KNN40) und Random Forest (RF41), die aufgrund unzureichender Trainingsbeispiele unter einer ungenauen Vorhersagegenauigkeit leiden. Parametereinstellung, verrauschte Bilder oder komplexer Merkmalsextraktionsprozess31. Außerdem wird Support Vector Machine (SVM) verwendet, um die fünf Augenrichtungen zu klassifizieren, nachdem die Augenregion erkannt wurde, indem die Eigenschaften des aktiven Erscheinungsmodells modifiziert werden42. Ein Deep-Learning-Convolution-Neural-Network (CNN) mit mehrschichtiger Architektur wird verwendet, um verschiedene Augengesten vorherzusagen, basierend auf dem Training des CNN mit einer großen Anzahl von Proben mit bekannten Augenzuständen als vorhergesagte Etiketten, die eine gute Leistung erzielen können, aber einen großen Aufwand erfordern Anzahl der Trainingsbeispiele, lange Trainingszeit und Abstimmung der Modellparameter entsprechend43. Die Eye-Tracking-Technologie wird bei nicht kommunikativen Aufgaben eingesetzt, beispielsweise beim Verstehen der Faktoren, die das Verständnis beeinflussen, indem untersucht wird, wie Entwickler die Abfragesyntax und Methodensyntax in Language-Integrated Query (LINQ) verstehen, einer beliebten Technologie zum Abfragen von Daten in .NET Programmiersprachen wie C# und VB.NET44. Außerdem ist die Eye-Tracking-Technologie in am Kopf montierte Virtual-Reality-Displays (VR) integriert, um die VR-Sinne wiederzugeben, die Interaktion des Benutzers mit der Umgebung zu unterstützen45 oder die Sehprüfung zu unterstützen46.

Blink-To-Live ist eine mobile Anwendung, die auf Computer-Vision-Techniken für Patienten mit motorischen Neuronenstörungen wie ALS und PLS basiert. Bei diesen Patienten entwickeln sich nach und nach Symptome einer Sprachbehinderung. Im letzten gelähmten Stadium sind Augengesten die einzigen Methoden, um eine Kommunikation einzuleiten. Das Blink-To-Live-Kommunikationssystem basiert auf den vier Augengesten: Links, Rechts, Oben und Blinzeln (Tabelle 1) und definiert die Schlüsselalphabete der Sprache für die Kodierung von mehr als 60 alltäglichen Kommunikationssätzen, wie sie beispielsweise in Tabellen 2 dargestellt sind und 3.

Wie in Abb. 2 dargestellt, besteht Blink-To-Live aus zwei grundlegenden Systemkomponenten: einer mobilen Anwendung, die von einem Google Flutter47-Framework entwickelt wurde, und der anderen ist ein Backend-Python-Modul für die Bildanalyse und -verarbeitung von Videobildern. Die Interaktionen des Patienten mit dem Blink-To-Live-System beginnen damit, dass eine Pflegekraft die Telefonkamera öffnet, um die Augenbewegungen des Patienten zu verfolgen. Sobald die Videobilder in Echtzeit korrekt erfasst wurden, werden sie automatisch an Computer-Vision-Module gesendet, um die Augenbewegungszustände des Patienten zu erkennen und zu verfolgen.

Architektur des Blink-To-Live-Kommunikationssystems.

Das erste Modul ist die Erkennung von Gesichtsorientierungspunkten, das aus zwei Untermodulen besteht: Gesichtserkennung und Vorhersage von Gesichtsorientierungspunkten. Dieses Modul zielt darauf ab, das Gesicht des Patienten zu erkennen und die Positionen von 68 Gesichtskoordinaten zu extrahieren, die verschiedene Gesichtsstrukturen wie Augen, Mund, Nase usw. repräsentieren. Das nächste Modul erkennt die Augen des Patienten und verfolgt seine Bewegungen gemäß Blink-To-Live vier Tastenalphabete: Links, Rechts, Oben und Blinken. Die kommunizierte Sprache des Patienten wird gemäß dem vordefinierten Satzwörterbuch generiert, das mithilfe einer Kombination aus drei Augenbewegungszuständen codiert wird. Sobald die Sätze synthetisiert sind, zeigt ein Übersetzungsmodul die Sätze in der Muttersprache des Patienten an, beispielsweise Arabisch, Deutsch usw. Außerdem generiert das Text-to-Speech-Modul eine entsprechende lebensechte Sprache, die den Patienten hilft, einfach und effizient zu kommunizieren. Die detaillierten Implementierungen der einzelnen Module werden in den folgenden Abschnitten erläutert.

Die augenbasierte Kommunikationssprache Blink-To-Live verfügt über vier Augenalphabete (d. h. Blinken (B), Links (L), Rechts (R) und Oben (U)). Wir haben eine zuvor vorgeschlagene Blink-To-Speak-Augensprache entsprechend den vier von unserem System erkannten Augenbewegungen modifiziert, um den Patientenkommunikationsprozess zu vereinfachen, indem wir mehr Aussagen mit weniger Abfolge von Augengesten und -übergängen ausdrücken. In der augenbasierten Kommunikationssprache Blink-To-Live wird jeder kommunizierte Satz als Folge von drei Augenzuständen ausgedrückt, und jeder Zustand könnte einer der vier Zustände (B, L, R und U) sein. Die vier definierten Zustände generieren genau 64 täglich kommunizierte Phrasen für ALS/PLS-Patienten (Tabellen 2 und 3). Diese Konfiguration kann mathematisch wie folgt definiert werden: Wenn Sie \(n\) erkannte Augenzustände und eine Gruppe kommunizierter Sätze haben, wird jeder Satz durch \(k\) Wörter (\(k\) Folge von Zuständen) ausgedrückt. die Gesamtzahl der eindeutig kommunizierten Sätze beträgt \({n}^{k}\). Durch die Erhöhung der Anzahl der \(n\) erkannten Augenzustände und der \(k\) ausgedrückten Wörter werden der modifizierten Blink-To-Speak-Sprache mehr Aussagen hinzugefügt. Wir haben herausgefunden, dass bei \(n=4\), \(k=3\) die Gesamtzahl der definierten Aussagen 64 beträgt, was ausreicht, um den Großteil der erforderlichen Alltagskommunikationssprache für ALS/PLS-Patienten mit weniger Schulungszeit auszudrücken. Die gleichen Augenzustände (d. h. alle drei Zustände sind links, rechts, oben oder Blinzeln) ohne dazwischen liegende Übergänge sind den Grundbedürfnissen des Patienten wie Essen, Wasser, Toilette, Mir geht es gut usw. gewidmet. Auch die Zustände mit niedrigen Übergängen sind dem wichtigsten Befehl gewidmet, z. B. Windel wechseln, einen Verwandten anrufen, Medikamente einnehmen usw. Normalerweise wird die Abfolge der gleichen Augenzustände von Patienten schneller ausgedrückt und erfordert weniger Einarbeitungszeit als die Abfolge von Augenzustände, die von einem Augenzustand in einen anderen übergehen. Die vorgeschlagene augenbasierte Kommunikationssprache Blink-To-Live wird einfacher, flexibler und benutzerfreundlicher sein, da die Augen des Patienten durch eine lange Abfolge von Augengesten und -übergängen, die im ursprünglichen Blink-To-Speak-Buch definiert sind, erschöpft sein könnten. Tabelle 4 zeigt die wichtigsten Unterschiede zwischen Blink-To-Speak24- und Blink-To-Live-Systemen.

Gesichtsmarkierungen erkennen wichtige Teile des Gesichts, wie Nase, Augen, Augenbrauen, Mund usw. Die wichtigste Gesichtsstruktur unseres Systems sind die Augen des Patienten. Das Gesichtsmerkmalsmodul in unserem vorgeschlagenen Framework besteht aus zwei grundlegenden Schritten: Erkennen des Gesichts anhand der aus Videobildern gesammelten Bilder und entsprechendes Lokalisieren der wichtigen Gesichtsstrukturen im interessierenden Gesichtsbereich.

Die Gesichtserkennung erfolgt mit einem vorab trainierten Modell namens Histogram of Oriented Gradients with Linear SVM (HOG + SVM). Der HOG-Deskriptor eines menschlichen Gesichts kann erstellt werden, indem das Gesichtsbild in kleine Blöcke unterteilt wird und für jeden Block die Gradienten (dh kleine Änderungen der Pixelwerte in x- und y-Richtung) berechnet werden. Anschließend wird das Histogramm für jeden Block separat erstellt. Schließlich werden die Gradientenvektoren normalisiert und zu einem einzelnen HOG-Merkmalsdeskriptor kombiniert, der in eine lineare SVM zur Klassifizierung von Gesichts-/Nicht-Gesichtsobjekten eingespeist wird48.

Nachdem die Gesichtsregion erkannt wurde, besteht der nächste Schritt darin, die Orientierungspunkte im Gesicht zu erkennen, indem der Mund, die linke und rechte Augenbraue, das linke und rechte Auge, die Nase und der Kiefer lokalisiert und beschriftet werden. Ein Satz manuell beschrifteter wichtiger Gesichtsstrukturen in Bezug auf x- und y-Koordinaten wird zusammen mit den Intensitätswerten der Pixel und den A-priori-Wahrscheinlichkeiten des Abstands der Pixelwerte, die den Gesichtsmarkierungspaaren entsprechen, in ein Ensemblemodell von Regressionsbäumen eingespeist49 um ein Modell für den Gesichts-Landmark-Detektor zu trainieren. Das Modell ist in der dlib-Bibliothek50 implementiert und auf dem iBUG 300-W-Datensatz51 trainiert, um die Positionen von 68 Gesichtsorientierungskoordinaten anhand von x- und y-Werten abzuschätzen. Unser vorgeschlagenes System nutzte das vorab trainierte dlib-Modell, um Gesichtsmarkierungen auf Echtzeitbildern zu erkennen, die aus Videobildern extrahiert wurden (siehe Abb. 3).

Modul zur Erkennung von Gesichtsorientierungspunkten, bei dem Punkte die 68 Koordinaten verschiedener Gesichtsstrukturen wie Mund, linke rechte Augenbrauen, Nase usw. darstellen.

Die Augen des Patienten werden mithilfe des Gesichtsmerkmalsmoduls erkannt, das die Indizes des linken und rechten Auges im Raum von 68 (x, y)-Koordinaten lokalisiert. Jedes Auge wird anhand von 6 Koordinaten erkannt, die auf der erstellten schwarzen Maske derselben Dimension für jeden Leserahmen, der dem Bild eines Patienten entspricht, gezeichnet werden. Der einzige weiße Bereich auf der erstellten schwarzen Maske umgibt das Auge und dehnt sich durch eine erweiterte morphologische Operation aus. Die Augen werden durch die bitweise Operation mit der erstellten Maske auf dem Originalbild segmentiert. Alle Nullpixelwerte werden in 255 umgewandelt, um den Augapfel zu lokalisieren, den einzigen schwarzen Bereich, der auf der Maske übrig bleibt. Die resultierende Augenmaske wird in Graustufen umgewandelt, um das Bild für die Segmentierung des Augapfels vom Auge und die Lokalisierung seines Zentrums vorzubereiten. Wir haben einen festen Schwellenwert verwendet, um eine binäre Maske zu erstellen, um die größte Kontur zu finden, die den Augapfel enthält, und sie entsprechend zu segmentieren. Nachdem der Augapfel erkannt wurde, wird seine Position (in Bezug auf x- und y-Koordinaten) berechnet und als drei Werte zurückgegeben, die drei Richtungen zugeordnet sind: links (1), rechts (2) und oben (3). Der Augen-Down-Zustand wird in dieser Version der Blink-To-Live-Anwendung nicht erkannt, da er mit einem Augen-Blinzel-Zustand in Konflikt steht.

Jedes Auge wird anhand von 6 Koordinaten mithilfe des Gesichtsmerkmalsmoduls erkannt, und die Beziehung zwischen Augenhöhe und -breite kann durch das Verhältnis „Eye Aspect Ratio“ (EAR52,53) kodiert werden, das durch die folgende Gleichung berechnet wird:

Dabei sind p1, p2, p3 usw. die Koordinaten der Orientierungspunkte des Auges, wie in Abb. 4 dargestellt.

Die 6 Koordinaten des linken und rechten Auges, die bei der Berechnung des Augenseitenverhältnisses (EAR) verwendet werden.

\(EAR\) ist bei geöffnetem Auge immer konstant und hat beim Blinzeln einen ungefähren Wert von Null. Folglich kann das Verhältnis bestimmen, ob der Patient blinzelt. Es wird ein bestimmter Schwellenwert \(t\) berechnet (dh 0,2 in unserer Anwendung). Angenommen, der EAR-Wert wird um weniger als 0,2 verringert und dann über 0,2 erhöht, wird ein einzelnes Blinzeln erkannt und es kann so oft gezählt werden, wie Blinzeln aufgetreten sind. Die folgende Gleichung erklärt, wie der Öffnungs- und Schließzustand des Auges basierend auf dem Vergleich von \(EAR\) mit dem \(t\)-Schwellenwert erkannt wird.

Das normale Blinken dauert 100 bis 400 ms, was im Vergleich zum beabsichtigten Blinken (dh dauert 800 ms) sehr schnell ist. Wir haben den in 53 erläuterten Ansatz verwendet, um den normalen Lidschlag vom Lidschlag des Patienten zu unterscheiden, der als Alphabet in der augenbasierten Blink-To-Live-Sprache verwendet wird. Die Lösung besteht darin, den \(EAR\)-Wert in der vordefinierten Anzahl von Videobildern (dh 13 Bildern) zu überprüfen und wenn der \(EAR\) immer noch kleiner als 0,2 ist, dann ist es das beabsichtigte Sprachblinken. Wenn die Anzahl der zu prüfenden Bilder weniger als 13 Bilder beträgt, ist das Blinken sehr schnell und kann normal sein, wenn man bedenkt, dass die Kamera 25 Bilder pro Sekunde aufnimmt.

Aus den zuvor besprochenen Modulen können die vier Augenalphabete (z. B. Blinzeln (B), Links (L), Rechts (R) und Oben (U)) erkannt und in einer Eye-Tracking-Liste registriert werden. Die Eye-Tracking-Liste speichert verschiedene vom Auge erkannte Zustände und generiert die entsprechenden codierten Phrasen gemäß den Tabellen 2 und 3. Mithilfe einer Python-Bibliotheksübersetzung werden diese Phrasen je nach Patient in verschiedene Muttersprachen wie Arabisch, Deutsch usw. übersetzt ' Kulturen und Nationalitäten54. Darüber hinaus wird der generierte Phrasentext mithilfe eines von Microsoft Azure55 entwickelten Text-to-Speech-Moduls in eine lebensechte synthetisierte Sprache umgewandelt. Die lokalen Registrierungsschlüssel der Microsoft-Bibliothek für Text-to-Speech können ebenfalls verwendet und direkt in jeden Python-Code importiert werden.

Blink-To-live ist eine flatterbasierte mobile Anwendung, die Patienten mit Sprachbehinderungen dabei hilft, mit ihren Familien und Betreuern zu kommunizieren. Eine Mobiltelefonkamera wird geöffnet und ein Strom von Videobildern wird erfasst und über einen Web-Socket mit FastAPI56 an ein Backend-Modell gesendet. Der bidirektionale Kommunikationskanal zwischen einem Client (mobile Anwendung) und einem Server (Backend-Modell) wird über einen Web-Socket mit FastAPI hergestellt, der Bilder schnell in Echtzeit sendet, ohne alle HTTP-Protokollschichten zu durchlaufen. Der Web-Socket bewältigt effizient ein Gegendruckproblem, das dadurch entsteht, dass mehr Videobilder empfangen werden, als vom Backend-Modell erwartet werden. Dieses Problem trat auch auf, wenn das Modell damit beschäftigt war, vorhandene Frames zu verarbeiten und Gesichts-/Augenerkennungsmodule auszuführen, die Augenbewegungen vorherzusagen und die erkannten Zustände in eine Kommunikationssprache zu übersetzen, während neue Frames von der mobilen Anwendung empfangen wurden. Um dieses Problem zu lösen, wird eine Warteschlange oder ein Puffer mit begrenzter Größe erstellt. Wenn die Warteschlange voll ist, werden einige Videobilder gelöscht, ohne die Effizienz der Anwendung zu beeinträchtigen, da ihre Details wiederhergestellt oder virtuell aus den zuvor gespeicherten erstellt werden können. Zwei Methoden werden gleichzeitig implementiert und laufen parallel: Empfangen und Verarbeiten. Die Empfangsmethode wird verwendet, um neu erfasste Frames zu lesen, die durch Rohbytes codiert sind. Im Gegensatz dazu erkennt die Prozessmethode Gesicht/Augen in den zuvor empfangenen Frames, verfolgt die Augengesten und sendet die übersetzte Augensprache zurück an den Bildschirm der mobilen Anwendung.

In diesem Artikel haben wir eine mobile Anwendung namens Blink-To-Live entwickelt, um Patienten mit Sprachbehinderungen eine einfache und effiziente Kommunikation zu ermöglichen. Die Pflegekraft des Patienten muss nur die Kamera des Mobiltelefons öffnen, um die Augenbewegungen des Patienten gemäß den vier Blink-To-Live-Alphabeten zu erfassen und zu verfolgen: Links, Rechts, Oben und Blinken. Die kommunizierte Sprache des Patienten wird gemäß dem vordefinierten Satzwörterbuch generiert, das mithilfe einer Kombination aus drei Augenbewegungszuständen codiert wird. Sobald die Sätze synthetisiert sind, zeigt ein Übersetzungsmodul die Sätze in der Muttersprache des Patienten an und das Text-to-Speech-Modul generiert entsprechend eine entsprechende lebensechte Sprache. Abbildung 4 zeigt verschiedene Anwendungsbildschirme, von der Benutzerregistrierung bis zum Bildschirm, auf dem die durch Augenbewegungen codierten Phrasen angezeigt werden.

In Abb. 5 können sich Benutzer mit ihren Telefonnummern und E-Mails registrieren. Je nach Registrierungsprozess können individuelle Informationen wie Nationalität, Kultur usw. des Patienten abgeleitet werden. Die folgenden Anwendungsbildschirme (d. h. Abb. 5) zeigen, dass die Anwendung beim Öffnen der Kamera beginnt, die Augenbewegungen zu verfolgen und sie auf dem Bildschirm anzuzeigen. Nachdem alle Augengesten erkannt wurden, wird gemäß den Tabellen die entsprechende synthetisierte Phrase angezeigt 2 und 3, wird auf dem Anwendungsbildschirm angezeigt und seine lebensechte Sprache ist zu hören.

Benutzeroberfläche der mobilen Blink-To-Live-Anwendung (d. h. Patientenregistrierungs- und Eye-Tracking-Schnittstellen) zusammen mit dem einen angezeigten Satz „Mir geht es nicht gut“.

Darüber hinaus verfügt die Anwendung über ein Lernmodul mit animierten Grafiken, das Patienten und Pflegekräften hilft und sie motiviert, mehr über die Blink-To-Live-Alphabete mit vier Augenbewegungen und die entsprechende augenbasierte generierte Sprache zu lernen. Darüber hinaus könnte die generierte Sprache entsprechend den Registrierungsinformationen des Patienten in verschiedene Muttersprachen übersetzt werden (siehe Abb. 6 und 7).

Die grundlegenden Dienste der Blink-To-Live-Mobilanwendung: Lesen des Augensprachbuchs, Erkennen des Auges und Übersetzen der Augenbewegungen in Phrasen in der Muttersprache des Patienten.

Benutzeroberflächendesigns des Patientenprofils in der mobilen Anwendung Blink-To-Live.

Abbildung 8 zeigt die Interaktionen zwischen der mobilen Anwendung Blink-To-Live und dem Patienten als Abfolge von Austauschnachrichten. Wenn für einen Patienten von seiner Pflegekraft ein Benutzerprofil erstellt wird, können die Anmeldeinformationen zum Starten der Blink-To-Live-Anwendung verwendet werden. Je nach Lähmungsstadium kann der Patient oder seine Pflegekraft die Telefonkamera öffnen und die Anwendung beginnt, das Auge des Patienten zu verfolgen und jede erkannte Bewegung in der Eye-Tracking-Liste aufzuzeichnen. Alle drei erkannten Augenbewegungen werden mithilfe des in den Tabellen 2 und 3 codierten Blink-To-Live-Wörterbuchs in eine entsprechende Phrase übersetzt. Die codierte Phrase wird auf dem Anwendungsbildschirm angezeigt und die entsprechende Stimme ist zu hören. Das Wörterbuch wurde unter Verwendung von drei Augenzuständen kodiert, um die Kommunikation zu vereinfachen, ohne das Auge des Patienten durch eine lange Abfolge von Augenbewegungen zu ermüden. Nachdem die kodierte Sprache des Patienten auf dem Bildschirm angezeigt wurde, wird die Eye-Tracking-Liste gelöscht, um mit der Aufzeichnung einer neuen Sequenz von drei Augengesten zu beginnen. Angenommen, der Patient macht versehentlich eine falsche Augenbewegung, die vom Blink-To-Live-System nicht erkannt wird. In diesem Fall wird auf dem Bildschirm der Anwendung der Status „Unerkannt“ nicht angezeigt und dem Patienten wird ein Fünf-Sekunden-Intervall zugewiesen, um den korrekten Status auszudrücken.

Ein Sequenzdiagramm, das die Interaktionen zwischen dem Patienten und der mobilen Anwendung Blink-To-Live beschreibt.

Verschiedene Eye-Tracking-Ansätze werden nach Kriterien wie Kommunikationsgeschwindigkeit, Kosten, Abhängigkeit von Pflegekräften oder speziellen Hardwaregeräten zur Initiierung der Kommunikation verglichen. Blink-To-Live folgt einem indirekten Blickkontakt-Tracking-Ansatz, der als Computer-Vision-basierter Eye-Tracking-Ansatz bezeichnet wird. Der Vergleich berücksichtigte die Ergebnisse verschiedener Studien, die unterschiedliche Eye-Tracking-Ansätze für die Kommunikation mit ALS-Patienten bewerten15,19,35,57,58. Das Blink-To-Live-System ist nicht auf spezielle Hardwaregeräte oder Sensoren angewiesen, um die Kommunikation mit dem Patienten zu initiieren. Die Patienten/Betreuer können ihre Mobiltelefone mit unterstützten Kameras verwenden, um die Augen des Patienten zu verfolgen, die beabsichtigte Sprache zu generieren und sie in die Muttersprache des Patienten zu übersetzen. Es sind keine Brillen, Elektroden oder Bildschirme zur Blickerkennung erforderlich; Daher weist unsere Anwendung im Vergleich zu den anderen vorgeschlagenen Anwendungen die niedrigsten Kosten auf. Bei Blink-To-Live kommt es zu einer kleinen Verzögerung, da umfangreiche Computer-Vision-Backend-Module die Videobilder in Echtzeit verarbeiten und die Ergebnisse an die mobile Anwendung zurücksenden, sodass die Kommunikationsgeschwindigkeit im Vergleich zu Systemen zur direkten Augenkontaktverfolgung langsamer ist (siehe Tabelle 5).

Alle Versuche wurden nach den einschlägigen Richtlinien und Vorschriften durchgeführt. Außerdem wurden sie von der Ethikkommission für wissenschaftliche Forschung der Fakultät für Computer und Information der Universität Mansoura, Ägypten, genehmigt. Außerdem wurde von allen Probanden die Einverständniserklärung zur Veröffentlichung der Informationen/Bilder in einer Online-Open-Access-Publikation eingeholt.

Ein Prototyp des vorgeschlagenen Blink-To-Live-Systems wurde anhand von 10 Normalfällen mit unterschiedlichen demografischen Merkmalen wie Alter, Geschlecht, Bildungsniveau und Technologiebewusstsein getestet. Das Technologiebewusstsein wird anhand des Alters, der Vorerfahrung, des kulturellen Hintergrunds und des Bildungsniveaus jedes am Testexperiment beteiligten Teilnehmers bewertet. Jeder Fall erhielt eine einwöchige Schulung, um die verschiedenen Alphabete der Augensprache und die zugehörigen Phrasen in den Tabellen 2 und 3 zu lernen. Anschließend wird jeder Fall gebeten, 27 Phrasen zu sprechen, indem er die entsprechenden Alphabete der Augensprache ausdrückt (d. h. links, rechts, oben, und blinken). Jeder Fall hatte fünf Versuche, jede der getesteten Phrasen auszusprechen.

Tabelle 6 zeigt die aufgezeichneten Ergebnisse, wobei jeder Fall in der ersten Spalte ein codiertes Symbol hatte. Die durchschnittliche Kommunikationsgeschwindigkeit, die Anzahl der Versuche und die Kommunikationsgenauigkeit werden in den folgenden Spalten angegeben. Die durchschnittliche Kommunikationsgeschwindigkeit wird anhand der Verarbeitungszeit gemessen, die erforderlich ist, um die Gesten des Auges zu erkennen und den entsprechenden Satz auf dem mobilen Bildschirm anzuzeigen. Die Kommunikationsgenauigkeit wird berechnet, indem aus den 27 getesteten Sätzen die Anzahl der korrekt gesprochenen Sätze mithilfe des Augenalphabets gezählt wird.

Die Fälle (P-01 bis P-10) umfassen 6 Männer und 4 Frauen im Alter von 21 bis 79 Jahren. Die Fälle P-01, P-02, P-04, P-06, P-08 und P-10 wurden erfolgreich durchgeführt Drücken Sie in einem Versuch unterschiedliche Augensprachenalphabete aus und sprechen Sie die meisten zugehörigen Phrasen korrekt aus (siehe Tabelle 6). Die Fälle P-01, P-02, P-04 und P-10 sind im Vergleich zu P-06 und P-08 mit einem Alter über 60 Jahren jünger. Sie verfügen alle über ein höheres Bildungsniveau und ein höheres Technologiebewusstsein als die anderen Teilnehmer . Die Fälle P-03, P-07 und P-09 haben ein mittleres Bildungsniveau und ein geringes Technologiebewusstsein, sodass mehr Versuche erforderlich waren, um die Augensprachenalphabete auszudrücken. Fall P-05 schneidet am schlechtesten ab, da das Bildungsniveau und das Technologiebewusstsein im Vergleich zu den anderen sehr niedrig sind. Die Kommunikationsgeschwindigkeit liegt in allen Fällen zwischen 15 und 25 Sekunden, um einen Satz auszudrücken. Diese Zeit hängt davon ab, wie viele Übergangsaugenzustände in der codierten Phrase enthalten sind, von der Fähigkeit der Person, ihre Augen entsprechend der beabsichtigten Sprache korrekt zu bewegen, ohne ihren Kopf zu bewegen, und von der Geschwindigkeit der Internetverbindung zwischen der mobilen Anwendung und dem Backend-System. In unseren experimentellen Ergebnissen erzielen normale Menschen mit hohem Bildungsniveau, Technologiebewusstsein, gutem Augensprachtraining, guter Internetverbindung und Stabilität gute Kommunikationsergebnisse. Bei ausreichender Einarbeitungszeit können auch Menschen mit geringem Bildungsniveau und geringem Technikbewusstsein gute Leistungen erbringen. Patienten mit ähnlichen experimentellen Einstellungen benötigen mehr Training (voraussichtlich 15 Tage), um die gleiche Leistung zu erzielen. Die Abhängigkeit des Patienten davon, dass seine Pflegekraft die Telefonkamera öffnet, hängt von seiner Fähigkeit ab, seine Muskeln je nach Krankheitsstadium zu kontrollieren. Sobald die Kamera geöffnet war, um das Auge des Patienten zu verfolgen, war keine Pflegekraft mehr erforderlich, die dem Patienten bei der Kommunikation behilflich war.

Um das Blink-to-Live-System weiter zu bewerten, haben wir alle variablen externen Faktoren wie die Netzwerkgeschwindigkeit/-bandbreite, die Gesamtzahl der von einem Absender (z. B. Mobilgerät) an einen Server (Backend-Modell) gesendeten Frames, die Frame-Auflösung usw. entfernt. und testen Sie das System mit seiner Desktop-Version. Insgesamt erreichten wir für die meisten kommunizierten Sätze mit denselben Augenbewegungszuständen oder mindestens einem Übergangszustand eine durchschnittliche Zeit von 3 s. Manchmal braucht unser System mehr Zeit, um blinkende Zustände zu erkennen, und dementsprechend haben die entsprechenden Phrasen im Vergleich zu den anderen Phrasen ohne blinkende Zustände eine lange Kommunikationszeit. Sätze wie „Ich möchte schlafen“, die durch eine Folge von [BLB] ausgedrückt werden, konnten von P-01 und P-04 nicht gesprochen werden, da das System den dritten Blinkzustand nicht erkennen kann, wenn ein schnelles/ Es erfolgte ein langsamer Übergang zwischen zwei verschiedenen aufeinanderfolgenden Zuständen (siehe Abb. 9). Auch die Sätze „Nasenblockade“, „Herzklopfen“, „Mein Computer funktioniert nicht“ und „Ich möchte beten“, die durch die aufeinanderfolgende Reihenfolge [LRR], [LRU], [UBR], [BRU] ausgedrückt werden ] wurde von einigen Teilnehmern nicht gesprochen, da sie den schnellen Übergang zwischen zwei aufeinanderfolgenden Zuständen vollzogen oder ihren Kopf entsprechend den Augenbewegungen bewegten. Daher kann das Blink-To-Live-System die Reihenfolge der vorgesehenen Augenalphabete zur Dekodierung der entsprechenden Phrase nicht erkennen.

Blink-To-Live-System-Kommunikationsgeschwindigkeit von Sätzen mit unterschiedlichen Übergangsaugenzuständen (z. B. L, R, U und B).

Da die Kommunikationsgeschwindigkeit von Blink-To-Live von vielen externen Faktoren beeinflusst wird, wie z. B. der Netzwerkgeschwindigkeit/-bandbreite, der Gesamtzahl der von der mobilen Anwendung an den Server gesendeten Frames und der Frame-Auflösung. Die Kommunikationsgeschwindigkeit des Blink-To-Live-Systems, \({{\varvec{C}}{\varvec{S}}}^{{\varvec{B}}{\varvec{T}}{\varvec{ L}}}\) kann mathematisch wie folgt charakterisiert werden:

wobei \({{\varvec{P}}}^{{\varvec{B}}{\varvec{T}}{\varvec{L}}}\) die Verarbeitungszeit der Folge von drei Augenzuständen ist die Serverseite und \({{\varvec{T}}}^{{\varvec{B}}{\varvec{T}}{\varvec{L}}}\) ist die Übertragungszeit zwischen der mobilen Anwendung und der Kellner.

Im Durchschnitt dauert \({{\varvec{P}}}^{{\varvec{B}}{\varvec{T}}{\varvec{L}}}\) drei bis vier Sekunden, während \( {{\varvec{T}}}^{{\varvec{B}}{\varvec{T}}{\varvec{L}}}\) kann anhand der Variablen definiert werden: \({D}^ {BTL}\): Dauer des untersuchten Videoclips für die Augenbewegungen des Patienten,\({FR}^{BTL}\): Bildrate, \({F}^{BTL}\): Gesamtzahl der Bilder von der mobilen Anwendung an das Backend-System gesendet werden, \({R}^{BTL}\): durch eine Telefonkamera gekennzeichnete Bildauflösung, \({X}^{BTL}\): Anzahl der Pixel in Videobildern, \({B}^{BTL}\): Anzahl der Bits in Videobildern und \(N\): Netzwerkbandbreite in bps.

Technisch gesehen haben wir zwei in der dlib-Bibliothek implementierte Features-Extractor-Ansätze verglichen. Der erste Ansatz basiert auf CNN und hat eine Ausführungszeit von 3,33 s nur für ein Gesichtserkennungsmodul, während der auf Blink-To-Live basierende Ansatz eine Ausführungszeit von 0,21 s hat (siehe Tabelle 7).

Augenbasierte Tracking-Anwendungen wie Blink-To-Live wurden als unterstützende Kommunikationstechnologie für Patienten mit Sprachbehinderungen eingeführt. Zwei Elemente spielen eine Schlüsselrolle für den Erfolg augenbasierter Tracking-Technologien: das Hardwaregerät, mit dem das Auge des Patienten verfolgt wird, und die Softwareanwendung, mit der die gesammelten Daten verarbeitet werden. Die Geräte, die das Auge des Patienten verfolgen, reichen von teuren Blickerkennungstastaturen wie Tobii Dyanvox oder Eye Transfer bis hin zu speziellen Linsen, Elektroden oder Brillen mit Infrarotsensoren. Das vorgeschlagene Blink-To-Live-System verfolgt einen anderen Ansatz zur Verfolgung des Patientenauges mithilfe einer einfachen Kamera, ohne teure Spezialgeräte oder Hardware-Sensoren zu verwenden, die direkt am menschlichen Auge positioniert sind.

Die Softwareanwendungen, die die gesammelten Daten verarbeiten, basieren auf maschinellen und Deep-Learning-Techniken zur Erkennung von Gesichtspunkten, zur Augenidentifikation und zur Verfolgung. Das Blink-To-Live-System nutzte HOG + SVM, den in der dlib-Bibliothek implementierten Feature-Extractor-Ansatz, zur Identifizierung von Gesichtspunkten und andere Computer-Vision-Module zur Verfolgung verschiedener Augenbewegungen und Blinzelzustände. Der Augen-Down-Zustand wird in dieser Version der Blink-To-Live-Anwendung nicht erkannt, da er mit einem Augen-Blinzel-Zustand in Konflikt steht, der in Zukunft durch den Einsatz von Techniken wie Reinforcement Learning gelöst werden kann. Außerdem leidet das Blink-To-Live-System unter einer kleinen Verzögerung, da umfangreiche Computer-Vision-Backend-Module die Videobilder in Echtzeit verarbeiten und die Ergebnisse an die mobile Anwendung zurücksenden, sodass die Kommunikationsgeschwindigkeit im Vergleich zu den anderen direkten Anwendungen langsamer ist -Blickkontakt-Tracking-Systeme. Die Kommunikationsgeschwindigkeit kann durch die Entwicklung von Back-End-Diensten mit schneller Verarbeitung und Web-Socket-Kommunikation zwischen Client- und Serveranwendungen erhöht werden.

Blink-To-Live ist eine einfache und kostengünstige mobile Anwendung für Patienten mit Sprachbehinderung, die nur über ihre Augen kommunizieren können, um mit ihrer Umwelt zu kommunizieren. Es basiert auf einer Reihe von Computer-Vision-Modulen und einer modifizierten Version der Blink-To-Speak-Sprache, um verschiedene Augengesten in eine Reihe von Befehlen für das tägliche Leben zu übersetzen, mit denen die Patienten ihre Gefühle und Bedürfnisse ausdrücken. Die Patienten/Betreuer verwenden ihre Telefone nur mit unterstützten Kameras, um die Augenbewegungen verschiedener Patienten zu verfolgen. Die synthetisierte augenbasierte Sprache wird entsprechend auf dem Telefonbildschirm angezeigt. Die zukünftigen Verbesserungen unseres Systems bestehen darin, die Kommunikationsgeschwindigkeit durch die Entwicklung eines schnell verarbeitenden Backend-Systems zu erhöhen, das moderne Echtzeit-Bildanalyse- und -verarbeitungsansätze nutzt. Darüber hinaus können Reinforcement-Learning-Algorithmen die Augenerkennungs-, Blinzel- und Verfolgungsmodule verbessern, um hochpräzise Ergebnisse zu erzielen und Konflikte zwischen Augenbewegungszuständen zu lösen. Darüber hinaus verfügt jeder Patient über ein registriertes Profil in unserer Anwendung. In Zukunft wird die Anwendung die Eigenschaften, Bewegungen und das Blinzelverhalten seines Auges erlernen, was die Kommunikationsgeschwindigkeit erhöhen und die Anwendung an die unterschiedlichen Bedürfnisse des Patienten anpassen kann. Blink-To-Live lässt sich problemlos in andere Systeme integrieren, die auf Hardwaregeräten basieren, um die Lebensumgebung des Patienten mit Augengesten zu steuern.

Blink-To-Live ist eine kostenlose Open-Source-Software, die unter der GNU GPL-Lizenz veröffentlicht wird und deren Quelle das GitHub-Repository ist (https://github.com/ZW01f/Blink-To-Live).

Spataro, R., Ciriacono, M., Manno, C. & La Bella, V. Das Eye-Tracking-Computergerät für die Kommunikation bei amyotropher Lateralsklerose. Acta Neurol. Scan. 130, 40–45 (2014).

Artikel CAS PubMed Google Scholar

Caligari, M., Godi, M., Guglielmetti, S., Franchignoni, F. & Nardone, A. Eye-Tracking-Kommunikationsgeräte bei amyotropher Lateralsklerose: Auswirkungen auf Behinderung und Lebensqualität. Amyotrop. Lateralsklerose Frontotemp. Degen. 14, 546–552 (2013).

Artikel Google Scholar

Tobiidynavox. Unterstützende Technologie für die Kommunikation, https://us.tobiidynavox.com/ (2023).

Vorstand, E.-t. Eye Transfer Board, https://www.bridges-canada.com/products/9594-1 (2023).

Cognolato, M., Atzori, M. & Müller, H. Am Kopf montierte Blickverfolgungsgeräte: Ein Überblick über moderne Geräte und jüngste Fortschritte. J. Rehabilitation. Helfen. Technol. Ing. 5, 2055668318773991 (2018).

Google Scholar

Verbaarschot, C. et al. Eine visuelle Gehirn-Computer-Schnittstelle als Kommunikationshilfe für Patienten mit amyotropher Lateralsklerose. Klin. Neurophysiol. 132, 2404–2415. https://doi.org/10.1016/j.clinph.2021.07.012 (2021).

Artikel PubMed Google Scholar

Katona, J., Ujbanyi, T., Sziladi, G. & Kovari, A. Untersuchen Sie die Wirkung verschiedener webbasierter Medien auf menschliche Gehirnwellen, auf der 8. IEEE International Conference on Cognitive Infocommunications (CogInfoCom) 2017. 000407–000412 (IEEE).

Holz, EM, Botrel, L., Kaufmann, T. & Kübler, A. Langfristige unabhängige Heimnutzung der Gehirn-Computer-Schnittstelle verbessert die Lebensqualität eines Patienten im Locked-in-Zustand: eine Fallstudie. Bogen. Physik. Med. Rehabilitation. 96, S16–S26 (2015).

Artikel PubMed Google Scholar

Farwell, LA & Donchin, E. Reden spontan: Auf dem Weg zu einer mentalen Prothese, die ereignisbezogene Gehirnpotenziale nutzt. Elektroenzephalologe Klin. Neurophysiol. 70, 510–523 (1988).

Artikel CAS PubMed Google Scholar

Sutter, EE Die Gehirnreaktionsschnittstelle: Kommunikation durch visuell induzierte elektrische Gehirnreaktionen. J. Mikrocomputer. Appl. 15, 31–45 (1992).

Artikel Google Scholar

Gembler, FW, Benda, M., Rezeika, A., Stawicki, PR & Volosyak, I. Asynchrone c-VEP-Kommunikationstools – Effizienzvergleich von Low-Target-, Multi-Target- und wörterbuchgestützten BCI-Rechtschreibprüfungen. Wissenschaft. Rep. 10, 17064 (2020).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Nagel, S. & Spüler, M. Die schnellste Gehirn-Computer-Schnittstelle der Welt: Kombination von EEG2Code mit Deep Learning. PLoS ONE 14, e0221909 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Proudfoot, M. et al. Eye-Tracking bei amyotropher Lateralsklerose: eine Längsschnittstudie sakkadischer und kognitiver Aufgaben. Amyotrop. Lateralsklerose Frontotemp. Entartet. 17, 101–111 (2016).

Artikel Google Scholar

Pinto, S., Quintarelli, S. & Silani, V. Neue Technologien und Amyotrophe Lateralsklerose – Welchen Schritt vorwärts hat die COVID-19-Pandemie beschleunigt? J. Neurol. Wissenschaft. 418, 117081. https://doi.org/10.1016/j.jns.2020.117081 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Pasqualotto, E. et al. Benutzerfreundlichkeit und Arbeitsbelastung der Zugangstechnologie für Menschen mit schwerer motorischer Beeinträchtigung: ein Vergleich von Gehirn-Computer-Schnittstellen und Eye-Tracking. Neurorehabil. Neural Repair 29, 950–957 (2015).

Artikel PubMed Google Scholar

Calvo, A. et al. in der Internationalen Konferenz über Computer für behinderte Menschen. 70–77 (Springer).

Gibbons, C. & Beneteau, E. Funktionelle Leistung durch Augenkontrolle und Ein-Schalter-Scannen bei Menschen mit ALS. Perspektive. Vermehren. Alternativ. Komm. 19, 64–69 (2010).

Artikel Google Scholar

Yedavalli, VS, Patil, A. & Shah, P. Amyotrophe Lateralsklerose und ihre Nachahmer/Varianten: eine umfassende Übersicht. J. Clin. Bildgebende Wissenschaft. 8 (2018).

Zarei, S. et al. Eine umfassende Übersicht über Amyotrophe Lateralsklerose. Surg. Neurol. Int. 6 (2015).

Light, J. et al. Herausforderungen und Chancen in der ergänzenden und alternativen Kommunikation: Forschung und Technologieentwicklung zur Verbesserung der Kommunikation und Partizipation für Personen mit komplexen Kommunikationsbedürfnissen. Vermehren. Altern. Komm. 35, 1–12 (2019).

Artikel ADS PubMed Google Scholar

Pai, S. & Bhardwaj, A. auf der International Joint Conference on Neural Networks (IJCNN) 2019. 1–8.

Tarek, N. et al. Morsebrille: Ein auf Morsecode basierendes IoT-Kommunikationssystem für Benutzer mit Sprachbehinderungen. Computing 104, 789–808. https://doi.org/10.1007/s00607-021-00959-1 (2022).

Artikel Google Scholar

Mukherjee, K. & Chatterjee, D. auf der International Conference on Communication, Information & Computing Technology (ICCICT) 2015. 1–5 (IEEE).

Sane, H. Blink-To-Speak, https://www.blinktospeak.com/blink-to-speak-guide (2022).

Edughele, HO et al. Eye-Tracking-Hilfstechnologien für Personen mit Amyotropher Lateralsklerose. IEEE Access 10, 41952–41972. https://doi.org/10.1109/access.2022.3164075 (2022).

Artikel Google Scholar

Pugliese, R., Sala, R., Regondi, S., Beltrami, B. & Lunetta, C. Neue Technologien für die Behandlung von Patienten mit amyotropher Lateralsklerose: Von Telemedizin bis hin zu unterstützender Robotik und neuronalen Schnittstellen. J. Neurol. 269, 2910–2921. https://doi.org/10.1007/s00415-022-10971-w (2022).

Artikel PubMed PubMed Central Google Scholar

Lim, JZ, Mountstephens, J. & Teo, J. Extraktion von Eye-Tracking-Funktionen für biometrisches maschinelles Lernen. Vorderseite. Neurorob. 15 (2021).

Cheng, S., Ping, Q., Wang, J. & Chen, Y. EasyGaze: Hybrider Eye-Tracking-Ansatz für tragbare Mobilgeräte. Virtual Reality Intel. Hardware 4, 173–188 (2022).

Artikel Google Scholar

Cocha Toabanda, E., Erazo, MC & Yoo, SG in Modellierung und Entwicklung intelligenter Systeme: 8. Internationale Konferenz, MDIS 2022, Sibiu, Rumänien, 28.–30. Oktober 2022, überarbeitete ausgewählte Beiträge. 18–41 (Springer).

Santini, T., Fuhl, W. & Kasneci, E. PuRe: Robuste Pupillenerkennung für Echtzeit-Pervasive-Eye-Tracking. Berechnen. Vis. Bildverstand. 170, 40–50. https://doi.org/10.1016/j.cviu.2018.02.002 (2018).

Artikel Google Scholar

Liu, J., Chi, J., Yang, H. & Yin, X. Im Auge des Betrachters: Eine Übersicht über Blickverfolgungstechniken. Mustererkennung. 132, 108944. https://doi.org/10.1016/j.patcog.2022.108944 (2022).

Artikel Google Scholar

Khan, MQ & Lee, S. Blick- und Blickverfolgung: Techniken und Anwendungen in ADAS. Sensoren 19, 5540 (2019).

Artikel ADS PubMed PubMed Central Google Scholar

Al-Rahayfeh, A. & Faezipour, M. Blickverfolgung und Erkennung von Kopfbewegungen: Eine hochmoderne Umfrage. IEEE J. Transl. Ing. Gesundheitsmed. 1, 2100212–2100212 (2013).

Artikel PubMed PubMed Central Google Scholar

Lingegowda, DR, Amrutesh, K. & Ramanujam, S. auf der internationalen IEEE-Konferenz 2017 über Unterhaltungselektronik in Asien (ICCE-Asia). 36–40 (IEEE).

Käthner, I., Kübler, A. & Halder, S. Vergleich von Eye-Tracking, Elektrookulographie und einer auditiven Gehirn-Computer-Schnittstelle für binäre Kommunikation: Eine Fallstudie mit einem Teilnehmer im Locked-in-Zustand. J. Neuroeng. Rehabilitation. 12, 1–11 (2015).

Artikel Google Scholar

Morimoto, CH & Mimica, MR Blickverfolgungstechniken für interaktive Anwendungen. Berechnen. Vis. Bildverstand. 98, 4–24 (2005).

Artikel Google Scholar

Liu, SS et al. Ein Blickverfolgungs- und Mensch-Computer-Schnittstellensystem für Menschen mit ALS und anderen festsitzenden Krankheiten. CMBES Proceedings 33 (2010).

Raudonis, V., Simutis, R. & Narvydas, G. im 2. Internationalen Symposium für angewandte Wissenschaften in Biomedizin- und Kommunikationstechnologien 2009. 1–6 (IEEE).

Lu, F., Sugano, Y., Okabe, T. & Sato, Y. Adaptive lineare Regression zur erscheinungsbasierten Blickschätzung. IEEE Trans. Muster Anal. Mach. Intel. 36, 2033–2046 (2014).

Artikel Google Scholar

Wang, Y. et al. Erlernen eines Blickschätzers mit Nachbarauswahl aus großformatigen synthetischen Augenbildern. Wissensbasiertes Syst. 139, 41–49 (2018).

Artikel Google Scholar

Kacete, A., Séguier, R., Collobert, M. & Royan, J. in der Asian Conference on Computer Vision. 419–432 (Springer).

Wu, Y.-L., Yeh, C.-T., Hung, W.-C. & Tang, C.-Y. Blickrichtungsschätzung mithilfe einer Support-Vektor-Maschine mit aktivem Erscheinungsmodell. Multim. Werkzeuge Appl. 70, 2037–2062 (2014).

Artikel Google Scholar

Akinlar, C., Kucukkartal, HK & Topal, C. Genaue CNN-basierte Pupillensegmentierung mit einem Regularisierungsterm für Ellipsenanpassungsfehler. Expertensystem. Appl. 188, 116004 (2022).

Artikel Google Scholar

Katona, J. et al. Verwenden von Eye-Tracking zur Untersuchung der Abfragesyntax und des Methodensyntaxverständnisses in LINQ. im Jahr 2020 11. IEEE International Conference on Cognitive Infocommunications (CogInfoCom). 000437–000444 (IEEE).

Adhanom, IB, MacNeilage, P. & Folmer, E. Eye Tracking in der virtuellen Realität: Ein umfassender Überblick über Anwendungen und Herausforderungen. Virtuelle Realität, 1–24 (2023).

Dæhlen, A., Heldal, I. & Katona, J. Auf dem Weg zur Entwicklung immersiver Virtual-Reality-Anwendungen zur Unterstützung des Sehtests – eine Benutzerstudie. J. Appl. Technik. Educ. Wissenschaft. 12, 330 (2022).

Google Scholar

Flutter: Apps für jeden Bildschirm erstellen, https://flutter.dev/ (2022).

Dalal, N. & Triggs, B. auf der Konferenz der IEEE Computer Society über Computer Vision und Mustererkennung (CVPR'05) 2005. 886–893 Bd. 881.

Kazemi, V. & Sullivan, J. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 1867–1874.

Dlib C++-Bibliothek für Echtzeit-Gesichtspositionsschätzung, http://blog.dlib.net/2014/08/real-time-face-pose-estimation.html (2014).

Sagonas, C., Antonakos, E., Tzimiropoulos, G., Zafeiriou, S. & Pantic, M. 300 Faces In-The-Wild Challenge: Datenbank und Ergebnisse. Bildansicht. Computer. 47, 3–18. https://doi.org/10.1016/j.imavis.2016.01.002 (2016).

Artikel Google Scholar

Cech, J. & Soukupova, T. Augenzwinkern in Echtzeit anhand von Orientierungspunkten im Gesicht erkennen. Cent. Mach. Wahrnehmung, Abt. Cybern. Fac. Elektr. Ing. Tschechische Tech. Univ. Prag, 1–8 (2016).

Reddy, B., Kim, Y.-H., Yun, S., Seo, C. & Jang, J. Augenzwinkern in Echtzeit anhand von Gesichtsmarkierungen erkennen. IEEE CVPRW (2017).

Python-Bibliothek übersetzen, https://pypi.org/project/translate/ (2022).

Text-to-Speech-Dienst von Microsoft Azure, https://azure.microsoft.com/en-in/services/cognitive-services/text-to-speech/ (2022).

FastAPI, https://fastAPI.com/ (2022).

Brownlee, A. & Bruening, LM Kommunikationsmethoden am Lebensende für Menschen mit Amyotropher Lateralsklerose. Spitze. Lang. Unordnung. 32, 168–185 (2012).

Artikel Google Scholar

Brownlee, A. & Palovcak, M. Die Rolle augmentativer Kommunikationsgeräte bei der medizinischen Behandlung von ALS. NeuroRehabilitation 22, 445–450 (2007).

Artikel PubMed Google Scholar

Referenzen herunterladen

Das Google Anita Borg Memorial Scholarship hat diese Arbeit an S.El-M. unterstützt.

Fakultät für Informatik, Fakultät für Computer und Information, Universität Mansoura, Postfach: 35516, Mansoura, Ägypten

Mohamed Ezzat, Mohamed Maged, Youssef Gamal, Mustafa Adel, Mohammed Alrahmawy und Sara El-Metwally

Sie können diesen Autor auch in PubMed Google Scholar suchen

ME, MA und S.El-M. waren für den Entwurf der Methodik, die formale Analyse, die Softwarevalidierung und die Datenkuratierung verantwortlich. ME, MM, YG und M.Ad. haben an der Softwareentwicklung, -validierung und -prüfung teilgenommen. S.El-M. war für die Konzeptualisierung, Visualisierung, das Schreiben und die Überprüfung des Originalentwurfs verantwortlich. MA und S.El-M. waren für die Projektadministration verantwortlich. Alle Autoren validierten die Ergebnisse und überprüften das Manuskript.

Korrespondenz mit Sara El-Metwally.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die Originalautor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Ezzat, M., Maged, M., Gamal, Y. et al. Augenbasiertes Kommunikationssystem Blink-To-Live für Benutzer mit Sprachbehinderungen. Sci Rep 13, 7961 (2023). https://doi.org/10.1038/s41598-023-34310-9

Zitat herunterladen

Eingegangen: 10. November 2022

Angenommen: 27. April 2023

Veröffentlicht: 17. Mai 2023

DOI: https://doi.org/10.1038/s41598-023-34310-9

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.