Wie Maschinen mit Menschen kommunizieren – Aktuelle Trends im Natural Language Processing

Natural Language Processing (NLP) beschreibt das Feld der Computerwissenschaften, welches sich mit der Interaktion zwischen Computerprogrammen und menschlicher Sprache beschäftigt. Durch die aktuellen Entwicklungen in den Bereichen der künstlichen Intelligenz und speziell des maschinellen Lernens in jüngerer Zeit hat die automatisierte Verarbeitung von Text- und Sprachdaten bereits Einzug in verschiedene Unternehmensbranchen gefunden. So werden in vielen Online Kundendienstportalen sogenannte Customer Chatbots eingesetzt, um schnellen und effizienten Support für Endnutzer bereitzustellen. Virtuelle digitale Assistenten sind bereits heute ein Bestandteil des Alltagslebens vieler Menschen, mit voraussichtlich 1,8 Milliarden Nutzern weltweit und einem geschätzten Gesamtmarkt von 15,79 Milliarden USD. Weiterhin werden NLP Technologien im HR-Bereich eingesetzt, sowohl zur automatischen Vorauswahl potentieller Kandidaten als auch für automatisierte Telefoninterviews mit künstlichen Intelligenzen. Welche aktuellen Trends brachte das Jahr 2018 mit sich und wie sieht die Zukunft des NLP aus? Dieser Artikel dient als Übersicht in einem Feld, das einer rasanten Entwicklung unterliegt.

Hintergründe der Text- und Sprachdatenverarbeitung

Die ursprüngliche Idee zur Kommunikation mit Computerprogrammen über menschliche Sprache entstand bereits in den 1950er Jahren in Alan Turings Veröffentlichung „Intelligence“. Über viele Jahre blieb die Technologie zur Prozessierung von menschlicher Sprache und der automatisierten Generierung von passenden Antworten jedoch hinter den Erwartungen zurück. Erst mit dem Aufkommen von Algorithmen zum maschinellen Lernen in den späten 1980er Jahren und dem späteren Wechsel von harten Regeln und Entscheidungsbäumen zu statistischen Verfahren stieg die Verlässlichkeit der entwickelten Modelle ausreichend an. Der seit einigen Jahren vorliegende verstärkte Einsatz von neuronalen Netzwerken und Deep Learning hat das Fundament für modernes NLP gelegt, beispielsweise mit Googles word2vec Worteinbettungsmodell 2013.

Die Herausforderungen bei der automatisierten Verarbeitung von Texten und besonders menschlicher Sprache stellen auch moderne Technologien noch auf die Probe. Gesprochene Sprache ist äußerst komplex. Menschen tendieren dazu bestimmte Wörter auszulassen und die Bedeutung des Gesprochenen vom Kontext abhängig zu machen. Menschen elaborieren und erzeugen einen Überfluss an, teilweise für die Bedeutung des gesprochenen unnötige, Daten. Menschen machen Fehler und korrigieren sich während sie sprechen. Menschen sprechen unterschiedlich laut, deutlich und schnell, teilweise können diese Parameter sogar während eines einzigen Satzes variieren. Menschen drücken mit der Art ihrer Sprache Emotionen und Intentionen aus, sowohl durch Stimmlage als auch durch ihre Ausdrucksweise und ihren Satzbau. Die Bedeutung von Aussagen kann aufgrund von unterschiedlichen kulturellen Hintergründen oder sprachlichen Fertigkeiten stark variieren. Die Qualität von Sprachaufnahmen kann verzerrt sein, sei es durch Hintergrundgeräusche oder geringe Aufnahmequalität. All diese Aspekte müssen von State‑of‑the‑Art NLP Modellen berücksichtigt werden. Zusätzlich dazu ist das Trainieren der entsprechenden Modelle mit erheblichem Kostenaufwand verbunden, da initiale Trainingsdatensätze erstellt und die notwendigen Hardwareanforderungen (in Form von leistungsstarken GPUs für das Training) erfüllt werden müssen.

Jüngste Entwicklungen im NLP

Das Jahr 2018 bot einige aufregende Entwicklungen im Hinblick auf diese Herausforderungen. Verschiedene Innovationen im Bereich der sogenannten vortrainierten Modelle sorgten teilweise für großes Aufsehen. Der große Vorteil bei der Verwendung vortrainierter Modelle ist, dass die initialen strukturellen Anforderungen (Datensätze und Hardware für das Training) zum Teil entfallen. Das Anwenden solcher Modelle auf Datensätze, für welche sie nicht explizit trainiert wurden, bezeichnet man als Transfer Learning. Hierbei wird lediglich eine letzte Feinabstimmung des Modells vorgenommen. Dieses Konzept wurde bereits vorher in den Bereichen des maschinellen Sehens und der Bildverarbeitung (beispielsweise durch das Mask R-CNN Framework), sowie der Robotik (OpenAIs Dota2 Bots) mit großem Erfolg eingesetzt.

Abbildung 1: Das Grundprinzip von Transfer Learning: Gut trainierte Modelle in kürzerer Zeit, trotz kleiner Datenbasis.

Zu Beginn des Jahres veröffentlichte OpenAI das Generative Pre-trained Transformer (GPT) Modell, welches zunächst durch unüberwachtes Lernen vortrainiert und anschließend überwacht auf entsprechende NLP Probleme feinabgestimmt wurde. Dadurch wurden die nötigen Trainingszeiten für die verschiedenen Probleme erheblich reduziert.

Das Universal Language Model Fine-Tuning (ULMFiT) Framework war ebenfalls eines der Vorreiter des vergangenen Jahres und ermöglicht es dem Nutzer via Transfer Learning beliebige NLP Modelle in verkürzter Zeit zu trainieren.

Googles Bidirectional Encoder Representations from Transformers (BERT) baute gegen Ende 2018 auf dem GPT Modell von OpenAI auf, indem Bidirektionalität in das neuronale Netzwerk eingeführt wurde. Dabei werden einzelnen Neuronen nicht ausschließlich Informationen aus früheren Zeitschritten, sondern auch aus späteren Zeitschritten zur Verfügung gestellt. Durch dieses Verfahren gelang es, vergleichbare Modelle in vielen Sprachdaten Benchmarks, wie beispielsweise dem SQuAD v1.1 question answering test F1, mit hohen Genauigkeiten zu übertreffen.

Ein weiteres NLP Modell, welches bidirektionale neuronale Netzwerke verwendet, ist das Embeddings from Language Models (ELMo) Framework. ELMo setzt dabei sogenannte bidirektionale Long Short-Term Memory Netzwerke ein, um Worteinbettungsinformationen zu erlangen mit denen der Kontext der analysierten Textpassagen erfasst werden kann.

Abbildung 2: Unidirektionale Recurrent Neural Networks (RNNs) vs. Bidirektionale RNNs. Die einzelnen hidden layers (H) werden durch hidden forward (F) und backward (B) layers ersetzt, um auch Informationsfluss in negative Zeitrichtung zuzulassen.

Einen Meilenstein setzte Google mit der Vorstellung von Google Duplex auf der Google I/O 2018. Eine Kombination aus Jahren der Forschung in den Bereichen NLP, Deep Learning und Text-zu-Sprache kulminierte in einer Technologie, welche in der Lage ist echte Gespräche am Telefon zu emulieren. Durch Inkorporation in den virtuellen Google Assistenten soll Google Duplex in Zukunft in der Lage sein telefonisch Terminvereinbarungen und Reservierungen für seine Nutzer durchzuführen. Ein hoher Grad an Realismus wird erreicht durch die Verwendung von sprachlichen Unstetigkeiten und natürlichen Verzögerungen während des Sprechens und beim Antworten.

Nicht vergessen werde sollte an dieser Stelle PyText, ein vortrainiertes open-source Deep Learning NLP Framework welches Ende 2018 von Facebook veröffentlicht wurde. Dieser letzte Fall ist ein exzellentes Beispiel für den Einsatz von NLP Modellen in echten Unternehmensprozessen. PyText wird von Facebook selbst seit längerer Zeit erfolgreich eingesetzt, um Nutzern für sie relevantere Inhalte zu liefern.

Ausblick

Aufgrund der Volatilität von computerwissenschaftlichen Feldern und technologischen Entwicklungen ist es sehr schwer Einschätzungen über den zukünftigen Verlauf des Natural Language Processing abzugeben. Der aktuelle Trend bewegt sich zunehmend in Richtung vortrainierte Modelle, welche lediglich noch für ihren jeweiligen Endnutzen feinabgestimmt werden müssen. Das damit verbundene Konzept des Transfer Learning wird sich dabei voraussichtlich auf weitere Bereiche des maschinellen Lernens ausweiten. Googles DeepMind hat bereits Ende 2017 bekanntgegeben, dass aktiv an der Möglichkeit gearbeitet wird die AlphaGo Zero Technologie auf weitere Teilbereiche des maschinellen Lernens auszuweiten. Möglich ist auch die Kombination verschiedener vortrainierter Modelle, um bestimmte Schwächen einzelner Modelle auszugleichen. Sicher ist, dass Natural Language Processing bereits heute ein wirksames Werkzeug für Unternehmen verschiedener Bereiche geworden ist und zu erwarten ist, dass sich in näherer Zukunft sein gewaltiges Potential weiter entfalten wird.