Wie Maschinen von heute das Lernen lernen
16 Jahre alt - und schon dreifacher Buchautor, Keynote-Speaker und Experte auf dem Gebiet des maschinellen Lernens: Tanmay Bakshi hat an der Entwicklerkonferenz von WeAreDevelopers gezeigt, wie aktuelle Modelle zur Verarbeitung natürlicher Sprache funktionieren - und warum sogenannte Schreib-KIs nicht wirklich schreiben können.
Er ist weltbekannt, ein gefragter Experte auf dem Gebiet des maschinellen Lernens - und ein Teenager: Der 16-jährige Kanadier Tanmay Bakshi begeistert das Publikum, weit über Entwicklerkreise hinaus.
Bakshi war der Star der diesjährigen Ausgabe der WeAreDevelopers Live Week. An der Entwicklerkonferenz, die dieses Jahr Corona-bedingt virtuell stattfand, referierte Bakshi am zweiten Tag über Natural Language Processing (NLP) - also über Modelle zur maschinellen Verarbeitung natürlicher Sprache. Die Leitfrage lautete: Was genau lernen solche Sprachmodelle?
Die Referate der Live Week sind online - auch die Keynote von Tanmay Bakshi. (Source: Screenshot youtube.com/watch?v=mV-UiKM5VIg)
Bakshi spricht schnell, denkt noch schneller - wirkt dabei aber selten überdreht. Man merkt ihm an, dass er seine Sache gerne macht. Und vor allem, dass er weiss, wovon er spricht. Als Bakshi anfing zu programmieren, war er gerade mal 5 Jahre alt. Mit 9 entwickelte er seine erste iOS-App. Und als er 12 war, stellte ihn IBM ein - als weltweit jüngsten Watson-Entwickler. Heute ist Bakshi ein begehrter Redner, Google-Developer-Experte für Machine Learning, IBM-Champion für Cloud und dreifacher Buchautor.
Wie können Machine-Learning-Modelle Sprachmuster so erkennen, wie es Menschen tun? Wie kann man einer Maschine das Schreiben beibringen? Auf diese und weitere Fragen gab Bakshi nicht nur Antworten. Er zeigte auch auf, wie aktuelle NLP-Modelle funktionieren - und warum sie nicht so funktionieren, wie wir uns das vielleicht vorstellen.
See how #NaturalLanguage-writing #NeuralNetworks are just #NaturalLanguage-reading networks disguised as #writers w/ autoregressive generation, probe #BERT for unsupervised syntax trees, live demos/coding & more on @WeAreDevs Live Week Oct 6 @ 12:30PM EST!https://t.co/FrHOusAvNm pic.twitter.com/gABF3PbQwm
— Tanmay Bakshi (@TajyMany) October 5, 2020
"Die Sache ist die: Textgeneratoren wie GPT-3 von OpenAI sind zwar beeindruckend, aber sie können nicht wirklich schreiben", sagte Bakshi. Was dabei herauskomme, sei logisch inkonsistent. "Wir tun so, als ob solche Programme alles Mögliche ersetzen können: Marketingleute, Journalisten, Liedermacher, Redner - selbst Entwickler! Das stimmt überhaupt nicht." Warum diese Vorstellung falsch ist, erklärte Bakshi nach einem kurzen Streifzug durch die Geschichte des maschinellen Lernens.
Klassische NLP-Modelle seien im Prinzip nichts weiter als simple, statistische Modelle, die auf der Grundlage einer Reihe von Wörtern berechnen, welches Wort mit welcher Wahrscheinlichkeit als nächstes folgt. Solche Modelle habe man so umgebaut, dass sie natürliche Sprache generieren konnten. "Das klappte - gelinde gesagt - nicht besonders gut", sagte Bakshi grinsend. Denn diese statistischen Modelle hätten nichts von der Sprache gelernt.
Warum KI Musik komponieren aber keine Bücher schreiben kann, lesen Sie hier in einem Hintergrundbericht zum Thema künstliche Intelligenz.
LSTM: Der gute alte Goldstandard
Später brachten Forscher und Entwickler künstliche neuronale Netze ins Spiel. Diese sind in der Lage, tatsächlich zu lernen und komplexe Muster zu erkennen. "Wie sich herausstellte, war das ziemlich erfolgreich." Und eine Zeit lang gab es dafür so etwas wie einen Goldstandard, wie Bakshi sagte: sogenannte rekurrente neuronale Netze und insbesondere deren Weiterentwicklung durch eine Technik namens "long short-term memory" (LSTM).
Der Ansatz stammt vom deutschen Informatiker und Direktor des Tessiner Dalle-Molle-Forschungsinstitut für künstliche Intelligenz Jürgen Schmidhuber. Durch LSTM bekamen Machine-Learning-Modelle quasi ein Kurzzeitgedächtnis, das lange anhält. Die Technik feierte bedeutende Erfolge. Sie steckt zum Beispiel in Übersetzungsprogrammen wie Google Translate und in Sprachassistenten wie Amazons Alexa oder Apples Siri.
In diesem Tutorial erklärt der damals noch 13-jährige Tanmay Bakshi, wie man mit LSTM und Google Tensorflow ein Modell zur Wortvorhersage entwickeln kann.
LSTMs haben aber auch Nachteile, wie Bakshi sagte. "LSTM-Verfahren sind sehr langsam, haben Mühe mit dem Lernen von langen Sequenzen - und was mich am meisten ärgert: Sie verstehen keinen Kontext." Der Grund: LSTMs behandeln natürliche Sprache wie Zeitreihendaten. Sie berechnen jedes einzelne Wort aufgrund der Berechnung der vorigen Wörter. "Man nutzte LSTMs vor allem deswegen, weil es nichts Besseres gab", sagte Bakshi.
BERT ist the word
Das änderte sich mit einem Paper aus dem Jahre 2017. Es stammt aus der Feder von Google-Forschern und trägt den Titel: "Attention is all you need".
Dieses Paper bilde die Grundlage für eine neue Deep-Learning-Architektur, sagte Bakshi. Anfangs habe das wenig Beachtung gefunden, obwohl Google das Konzept umsetzte, um etwa seine Übersetzungs- und Suchalgorithmen zu optimieren. Doch seitdem ein anderes Forscherteam von Google darauf angesprungen ist, schlägt das Konzept hohe Wellen. Ende 2018 gab Google das Projekt als Open Source frei unter dem Namen BERT.
BERT ist ein Akronym und steht für: Bidirectional Encoder Representations from Transformers. Google verbessert damit seine Suchmaschine so, dass sie die Anfragen der Nutzerinnen und Nutzer besser verstehen kann - indem sie nicht nur einzelne Schlüsselwörter, sondern auch den semantischen Kontext von Suchanfragen analysiert.
"Im Vergleich zu LSTM-Verfahren ist BERT wesentlich schneller", sagte Bakshi. Doch viel wichtiger: BERT sei in der Lage, Kontext zu verstehen. Dies, weil nicht ein Wort nach dem anderen, sondern ganze Sequenzen auf einmal analysiert würden.
Das "B" im Namen BERT steht für Bidirektional. Im Gegensatz zum GPT-Ansatz von OpenAI verarbeitet BERT die Daten also nicht ausschliesslich sequenziell. (Source: ai.googleblog.com)
Lesen lernen wie ein Mensch
"Was mich daran fasziniert, ist die Tatsache, dass BERT das Lesen auf ähnliche Weise lernt wie wir Menschen", sagte Bakshi. "Ich erinnere mich noch an meine Zeit im Kindergarten - das war vor etwa 12 Jahren: Da gab es diese Lückentext-Aufgaben. Das Ausfüllen dieser Textlücken brachte mich dazu, natürliche Sprache zu verstehen. Ich musste mir Gedanken machen über die Struktur von Sätzen, über verschiedene Wortarten, ihre Positionierungen und Abhängigkeiten. Und genau so funktioniert das Training von BERT."
(Source: Screenshot youtube.com/watch?v=mV-UiKM5VIg)
BERT analysiere zudem nicht nur Sätze und Wörter, sondern auch ihre Bestandteile und deren Beziehungen zueinander. Wenn also ein neuer, noch unbekannter Begriff auftaucht, kann ihn das neuronale Netz auseinander nehmen und aus den Bausteinen des Wortes dessen Bedeutung ableiten.
Wie das Ganze funktioniert, zeigte Bakshi auch live. Den Code für die Demo finden Interessierte auf Github. Das Modell sei bewusst stark vereinfacht: Statt ganze Sätze oder Wörter als Input zu verwenden, untersucht es einzelne Buchstaben. Die Idee: Wie bei einer Lückentext-Aufgabe soll das Modell für einen Suchbegriff, bei dem ein Zeichen fehlt, den richtigen Buchstaben berechnen.
Die Probe aufs musikalische Exempel
Bakshi hatte das Demo-Modell mit Namen von Musikern trainiert - mit einer zufälligen Auswahl von Künstlernamen von Spotify oder Last.fm. Das Prinzip der Demonstration: Man gibt einen Namen ein - zum Beispiel Tom Waits - maskiert eines der Textzeichen (sodass da sinngemäss vielleicht Tom Wai_s steht) und lässt das Modell berechnen, welcher Buchstabe fehlen könnte. Als Ergebnis zeigt das Modell mehrere Möglichkeiten und deren prognostizierte Wahrscheinlichkeiten an.
"BERT liegt nicht immer richtig", sagte Bakshi. Das sei auch nicht die Idee, denn das Lernziel diene nur dem Pre-Training. Damit soll das Modell gewissermassen ein Grundverständnis für natürliche Sprache entwickeln.
Das neuronale Netz hat in diesem Fall nichts anderes gelernt, als Textlücken auszufüllen. Trotzdem erkennt es Ähnlichkeiten: dass beispielsweise Vokale in ähnlichen Kontexten vorkommen. Dasselbe gilt zum Beispiel für die Konsonanten K und C. Für Menschen scheint das einleuchtend, weil diese Buchstaben ähnlich klingen. Für ein neuronales Netz wie dieses sei das allerdings alles andere als trivial, gab Bakshi zu verstehen.
"Ein Geschenk für Linguisten"
"Das Erstaunliche daran: BERT hat noch nie einen Syntaxbaum gesehen und ist dennoch in der Lage, Regeln für die Abfolge von Zeichen abzuleiten."
(Source: Screenshot youtube.com/watch?v=mV-UiKM5VIg)
Ohne dazu trainiert worden zu sein, lerne BERT, wie Sprache strukturiert ist - "weil es quasi Sinn ergibt. So funktioniert das Lernen von Sprachen nun mal", sagte Bakshi. "Das ist ein Geschenk für Linguisten." Denn es beweise nicht nur, dass Netzwerke die Fähigkeit haben, Sprachen zu lernen. "Es zeigt auch, dass die Struktur natürlicher Sprache auch aus mathematischer Sicht sinnvoll ist."
Ein erkenntnistheoretisches Intermezzo
Zurück zur Ausgangsthese: "Die neuronalen Netze, die wir heute als 'Schreiber' trainieren, können nicht wirklich schreiben." Sie seien allerdings sehr gut darin, natürliche Sprache zu lesen. Das betrifft nicht nur die berüchtigte "Schreib-KI" von OpenAI, sondern auch BERT. Googles neue Pre-Training-Methode sei zwar der neue Goldstandard für viele NLP-Anwendungen, weil BERT den Kontext von Wörtern besser verstehen könne. Doch das allein reicht nicht, um eine echte "Schreib-Maschine" zu entwickeln. Warum das so ist, hängt damit zusammen, was das Schreiben voraussetzt.
"Wir Menschen assoziieren das Schreiben mit Kreativität - zu Recht. Denn wenn wir schreiben, transkribieren wir nicht einfach nur Gedanken zu Sprache. Das ist nur der einfache Teil. Das Schwierige am Schreiben ist, überhaupt erst auf den Gedanken zu kommen", sagte Bakshi. Und wie kommt man auf einen Gedanken? Bakshi hat dazu ein simples Schema entworfen. Quasi eine Theorie der natürlichen Sprache.
(Source: Screenshot youtube.com/watch?v=mV-UiKM5VIg)
Der Prozess, wie ihn Bakshi modelliert, beginnt damit, dass wir Umwelteinflüsse wahrnehmen und zusammen mit bereits vorhandenem Wissen und Erfahrungen verarbeiten - zum Teil auch unterbewusst. Am Anfang des Schreibens geht es also darum, einen Gedanken zu entwickeln und ihn zu formen - bevor es überhaupt ums Formulieren geht. "Das ist es, was uns menschlich macht", sagte Bakshi.
Wenn der Gedanke einigermassen ausgereift ist, kommt der "easy part": "Einen Gedanken sprachlich zu formulieren, ist auch für neuronale Netze ziemlich leicht. Deswegen funktionieren Übersetzungsprogramme heute so gut. Das liegt nur daran, dass die Gedanken schon gemacht sind. Bleibt nur noch die Aufgabe, die Bedeutung des Gesagten oder des Geschriebenen zu entschlüsseln und zu übersetzen."
NLP-Modelle dürften also zumindest auf absehbare Zeit nicht in der Lage sein, Schriftsteller, Songwriter oder Softwareentwickler zu ersetzen. Das kann auch nicht das Ziel sein, wie Bakshi sagte. "Wir wollen nicht immer nur grössere Modelle. Wir wollen Modelle mit den bestmöglichen Lernzielen, mit denen sie sich beibringen können, besser zu schreiben. Mit solchen Modellen können wir vieles über Sprache lernen, was wir noch nicht wissen."
(Source: Screenshot youtube.com/watch?v=mV-UiKM5VIg)
Bakshis Ziel sei es, Technologien wie BERT und maschinelles Lernen im Allgemeinen mehr Menschen zugänglich zu machen. So beschreibt er es auch auf seiner Website, wo er unter anderem auch Lernvideos bereitstellt.
Das Intro zu Bakshis Video-Serie namens Tanmay Teaches - damals war er noch 12 Jahre alt.
Die WeAreDevelopers Live Week drehte sich um die fünf Themen Security, Machine Learning, Cloud, Blockchain und DevOps. Im Vorfeld des Events haben die Veranstalter Benjamin Ruschin und Sead Ahmetović über die wichtigsten Trends im Entwicklerumfeld gesprochen - und darüber, wie es dazu gekommen ist, dass der Event überhaupt in die Schweiz gekommen ist.