Press "Enter" to skip to content

Graphische Faltungsnetze bringen die Emotionserkennung näher an die Maschinen heran. Hier ist das Wie.

Die künstliche Intelligenz (KI) ist auf dem Weg, die bestimmende Technologie unserer Zeit zu werden. Es gibt viele Anwendungen und Fortschritte, die diesen Anspruch untermauern können. Aber wenn wir uns nur für einen entscheiden würden, dann müsste das auf jeden Fall ein tiefes Lernen sein. Diese Technologie ist Teil einer Reihe von Methoden des maschinellen Lernens, die auf künstlichen neuronalen Netzen basieren, die in der Lage sind, die Funktionsweise eines menschlichen Gehirns zu imitieren.

So beeindruckend es sich auch anhört, aber die Tiefe des Lernens wächst mit jeder Woche in Sprüngen und es gibt noch viel Raum für Verbesserungen. Auf seinem Weg wird es auf verschiedene Aufgaben angewendet, von der Spracherkennung bis zum Computersehen, und obwohl all diese Bemühungen auf ihre eigene Weise erstaunlich sind, gibt es eine, die heraussticht – die Verarbeitung natürlicher Sprache (NLP).

Dadurch versuchen Software-Ingenieure, Systeme zu entwickeln, die in der Lage sind, Menschen in normaler Interaktion zu verstehen. Mit anderen Worten, ein auf NLP basierendes System könnte so weit entwickelt sein, dass es mit einer Person sprechen könnte, als wäre sie ein Mensch. Das ist überwältigend, selbst ohne zu bedenken, was es braucht, damit eine Maschine auf diese Ebene aufsteigt – Absicht verstehen, Kontext verstehen, Semantik und Grammatik handhaben und vieles andere mehr.

Ein perfektes NLP-System gibt es noch nicht, aber die Forschung macht riesige Schritte in diese Richtung, so dass sie die Qualitätssicherung auslagern, um vorwärts zu kommen. Eine der jüngsten Entwicklungen in diesem Bereich? Die Verwendung von graphischen Faltungsnetzen zur Erkennung von Emotionen in Texten. Können Sie sich vorstellen, dass ein Computer einen Absatz liest und erkennen kann, ob der Autor witzig, ironisch oder wütend war? Genau das versucht diese raffinierte Methode zu erreichen. Schauen wir uns an, wie das funktionieren wird, zumindest auf theoretischer Ebene.

Einige grundlegende Definitionen

Bevor Sie sich auf die komplexe Erklärung, die vor uns liegt, einlassen, ist es wichtig, dass Sie einige wesentliche Begriffe kennen, die Ihnen helfen können, alles zu verstehen. Hier ist also eine Liste von Dingen, die Sie lernen müssen, bevor Sie weitermachen können:

Ihr wichtigster Hinweis sollte sein, dass es sich hier um einen Rechenprozess handelt, der das menschliche Gehirn nachahmt, indem er Faltungsoperationen zur Interpretation von Diagrammen verwendet. Jetzt ist es an der Zeit, zu sehen, wie alles zusammenkommt, wenn es im ERC eingesetzt wird.

Der aktuelle ERC

Die Anerkennung von Emotionen ist wie der Heilige Gral für NLP-Enthusiasten. Wenn ein System so fortschrittlich wäre, dass es die Emotionen eines Textes genau bestimmen könnte, wären wir einer KI-basierten Plattform näher, die mit uns sprechen könnte – wie wenn wir von einem Science-Fiction-Film leben würden. Die Schaffung einer solchen Plattform könnte die Entwicklung intelligenter Roboter und Systeme in Gang setzen, die unser Bildungs- und Gesundheitswesen sowie die Art und Weise, wie wir Dinge verkaufen oder wie wir arbeiten, revolutionieren würden.

Die bis heute für den ERC verwendeten Methoden waren Recurrent Neural Networks (RNN) und Attention Mechanisms (Aufmerksamkeitsmechanismen). Ohne zu sehr in sie hineinzugehen, sagen wir, dass ihre Ergebnisse bei weitem nicht perfekt sind, selbst wenn man die beiden Methoden kombiniert. Das liegt daran, dass sie beide ein Problem haben, wenn sie Zusammenhänge jenseits des Textes betrachten (Persönlichkeitsmerkmale, Themen und Absicht).

Da der Kontext in der Kommunikation alles ist, sind Systeme, die RNN und Aufmerksamkeitsmechanismen verwenden, nicht gerade effizient. Das ist der Hauptgrund, warum die Forscher begannen, sich mit dem Thema Tiefenlernen zu befassen, um eine ausgefeiltere Methode zur Bewältigung des ERC zu finden. Da kamen die GNCs ins Spiel.

Die Bedeutung des Kontexts

Wir haben gesagt, dass der Kontext alles ist, und das ist nicht zu bestreiten. Sehen wir uns ein Beispiel an, um es zu beweisen. Wenn Sie “It’s fine” lesen, könnten Sie es auf verschiedene Arten verstehen. Man kann es für bare Münze nehmen (die Sache ist in Ordnung), man kann es als einen resignierten Ausdruck sehen (“es ist in Ordnung…” wie in “belassen Sie es einfach dabei”), man kann sogar die Ironie darin sehen (ein “es ist in Ordnung” mit einer spöttischen Geste). Wie können Sie wissen, welche Interpretation die richtige ist? Durch den Kontext.

In einem solchen Satz würde der Kontext durch das vorher Gesagte, die Gefühle aller Gesprächsteilnehmer, die Vorgeschichte zwischen ihnen, die Atmosphäre usw. gegeben sein. Wir sind in der Lage, all das in einem Text zu erkennen, weil wir als Menschen bereits die “Mechanismen” integriert haben, die es uns ermöglichen zu erkennen, ob eine Interpretation richtig ist oder nicht. Dies ergibt sich aus zwei Arten von Kontexten:

Damit ein GNC funktioniert, müssen die Daten natürlich in Form einer Grafik angeordnet werden. Das stellt eine von vielen Herausforderungen für das Modell dar. Denn wie zum Teufel kann man ein Gespräch darstellen?

Erstellen von grafischen Darstellungen von Gesprächen

Um einen Gesprächsgraphen zu erstellen, ist es wichtig, die verschiedenen Elemente zu verstehen, die in dem besagten Gespräch eine Rolle spielen. Wir können also damit beginnen, die Anzahl der beteiligten Redner zu berücksichtigen. Jeder dieser Redner “erstellt” einen neuen Text und schickt ihn an den anderen oder andere Redner, was die Forschung als “Äußerung” bezeichnet hat.

Nachdem man verstanden hat, dass die Sprecher Äußerungen kreieren, ist es an der Zeit zu verstehen, dass jede Äußerung mit dem Rest in einer kontextuellen Weise verbunden ist. Diese Verbindungen werden als Edges bezeichnet, die wiederum entsprechend den verschiedenen Bedürfnissen beschriftet werden können. Diese Bezeichnungen werden Beziehungen genannt. Außerdem haben alle Kanten eine unterschiedliche Bedeutung für den Kontext, der als Gewicht der Kante definiert ist.

Jetzt haben wir alle Elemente, die wir brauchen, um ein Gespräch zu zeichnen, einschließlich der Sprecher, ihrer Äußerungen, der Ränder, der Beziehungen und der Gewichte. Und so kommt alles zusammen:

Von all diesen ist Edges wahrscheinlich der komplizierteste Begriff, den man sich vorstellen kann. Deshalb ist es wichtig, 2 Dinge über sie zu beachten:

Eine weitere wichtige Überlegung zum Verständnis des Modells ist die folgende:

Diese Überlegungen sind für die Grafiken sehr wichtig, denn wer was und wann gesagt hat, sind sehr wichtige Aspekte eines jeden Gesprächs. Es ist nicht dasselbe, ob Sie vor der anderen Person sprechen oder ob die andere Person es zuerst getan hat. Im gleichen Sinne wird das Gespräch nicht dasselbe sein, wenn eine dritte Person im Spiel ist.

Das GCN-Modell

Anhand der oben dargestellten Grafik kann die Funktionsweise des GCN nachvollzogen werden. Hier ist die visuelle Darstellung des Prozesses.

Es sieht kompliziert aus, ist es aber nicht mehr, wenn man es sich genau ansieht. Es gibt 3 verschiedene Stufen im Modell: die sequentielle Kontextkodierung, die Kontextkodierung auf Sprecherebene und die Klassifizierung. Lassen Sie sie uns im Detail sehen.

Bei der sequentiellen Kontextkodierung wird jede Äußerung mit Hilfe eines sequentiellen Kontextkodierers durch eine Reihe von Gated Recurrent Units (GRUs) geleitet. Hier gewinnen die Daten den sequentiellen Kontext, d.h. sie verstehen ihren eigenen Platz in einer bestimmten Reihenfolge. Das Ergebnis eines solchen Prozesses wird als Input für die zweite Stufe verwendet.

In der Stufe der Kontextkodierung auf Sprecherebene werden die Daten mit dem sequenziellen Kontext erneut untersucht und klassifiziert. Hier werden die Ränder mit Relationen beschriftet und die Sprecher-Kontext-Dimension hinzugefügt. Dies geschieht in einem 2-stufigen Prozess:

Dieser Prozess ist einer der wichtigsten im gesamten System, da hier die Klassifizierung verfeinert wird und der größte Teil des Lernens stattfindet.

Wenn dieser Prozess abgeschlossen ist, ist es an der Zeit, zur Klassifizierungsphase überzugehen. Hier werden die Ausgaben der ersten und zweiten Stufe für ihre Klassifizierung verkettet. Mit anderen Worten, die Daten mit dem integrierten sequentiellen Kontext werden mit den Daten mit dem Kontext auf Sprecherebene durch Faltung verbunden, um einen dritten Datensatz zu erhalten, der den reichhaltigsten und damit den besten Input für die Klassifizierung darstellt. Nach der dritten Stufe bietet der GCN eine Ausgabe durch eine Wahrscheinlichkeitsverteilung, die die verschiedenen Emotionen für die verschiedenen Äußerungen zeigt.

Das bedeutet natürlich nicht, dass das System in der Lage ist, allen Äußerungen von Anfang an die richtige Emotion zuzuordnen. Tatsächlich muss, wie bei allen Methoden des maschinellen Lernens, die Ausgabe bewertet und erneut dem gesamten System mit genügend Korrekturen zugeführt werden, damit das GCN erneut darüber laufen und das Lernen fördern kann.

Die Ausbildung des Modells ist entscheidend, um bessere Ergebnisse zu erzielen. Dafür verwenden die Forscher die folgenden, als multimodal gekennzeichneten Datensätze:

Es ist wichtig zu beachten, dass nur der Textteil dieser multimodalen Datensätze verwendet wird. Die Forscher glauben jedoch, dass es Fälle gibt, in denen die Verwendung von Audio- und Bildmaterial für das Training von Vorteil sein kann (z.B. bei der Beurteilung kurzer Äußerungen wie “fein” oder der Einstufung ähnlicher Emotionen als “aufgeregt” und “glücklich”).

Was jetzt zu erwarten ist

Wie Sie sicherlich gesehen haben, sind GCNs sehr komplexe Systeme, die klare Datensätze, ständiges Training, hohe Rechenleistung und Zeit benötigen, um sich zu entwickeln und genauere Ergebnisse zu erzielen. In ihrer jetzigen Form sind sie jedoch eine der besten Alternativen beim ERC für KI-basierte Lösungen.

Das Erstaunlichste daran ist, dass Graphen-Neuronale Netze der Schlüssel zur Erschließung des Potentials in der NLP-Forschung sein können. Das Verständnis der Beziehung zwischen den Daten durch benachbarte Knoten ist ein revolutionäres Konzept, das die Untersuchung voranbringen kann. Es ist jetzt an der Zeit, weiter zu experimentieren und die Systeme und die zugrundeliegenden Technologien zu informieren, um signifikante Verbesserungen auf dem jetzt sichersten Weg zu wirklich intelligenten KI-Lösungen zu erreichen.

Für einen umfassenderen Überblick über die Funktionsweise von GCNs lesen Sie den fantastischen Einführungsartikel von Kevin Shen in Towards Data Science.