Künstliche Intelligenz scheint in letzter Zeit immer intelligenter geworden zu sein. KI-Technologien werden immer mehr in unser Leben integriert — sie verbessern unsere Wettervorhersagen, finden effiziente Routen im Verkehr, personalisieren die Werbung, die wir sehen, und unsere Erfahrungen mit sozialen Medien.
Das Wesen der menschlichen Intelligenz ist schwer zu beschreiben, geschweige denn zu entwickeln. Man sagt, dass es viele Arten von Intelligenz gibt und dass wir als Menschen auf viele verschiedene Arten von Wissen und Denkweisen zurückgreifen. Die Fähigkeit von ChatGPT, natürliche Konversationen mit seinen Benutzern zu führen, hat zu Spekulationen geführt, dass das Computermodell empfindungsfähig sei, aber es muss betont werden, dass KI-Technologie nicht in der Lage ist, selbst zu denken. Dennoch könnte dieser Bereich an einem Wendepunkt angelangt sein.
Eine andere Art von Intelligenz
ChatGPT wurde von der Firma OpenAI entwickelt und ist ein Beispiel für ein tiefes neuronales Netzwerk, eine Form des maschinellen Lernens, die in fast allen Bereichen der Wissenschaft und Technologie eingesetzt wird. Diese Modelle lernen, verschiedene Aufgaben zu erfüllen, indem sie Muster in großen Datensätzen erkennen. ChatGPT durchsucht Texte und erkennt und reproduziert, wie Sprache verwendet wird. Auf der Grundlage von Sprachmustern, die es im Internet findet, kann ChatGPT dir einen Menüplan erstellen, dir etwas über Raketenwissenschaft beibringen oder einen Aufsatz über Mark Twain auf Highschool-Niveau schreiben. Durch das Internet als Lernmedium sind diese Modelle so gut geworden, dass sie als allwissend gelten können.
Die Fähigkeiten von Sprachmodellen sind jedoch begrenzt. Wenn Du lange genug mit ChatGPT spielst, wird es Dir sicher einige falsche Informationen geben, auch wenn es durch seine flüssige Sprache täuschend echt aussieht. In Wirklichkeit wissen diese Modelle nichts über die Welt, sie wissen nichts über die mentalen Zustände anderer Menschen, sie wissen nicht, wie die Dinge sind, außer dem, was sie aus dem Zusammenspiel von Wörtern schließen können.
Ein solches Modell kann die komplexe Informationsverarbeitung des menschlichen Gehirns nicht nachbilden. Das heißt nicht, dass Sprachmodelle nicht intelligent sein können — aber sie haben eine andere Art von Intelligenz als wir. Ich glaube sogar, dass es unendlich viele verschiedene Formen von Intelligenz gibt. Ingenieure haben einige dieser Formen von Intelligenz erfunden, seit es Computer gibt. ChatGPT ist eine davon. Aber sie ist sehr weit von der menschlichen Intelligenz entfernt.
Alles unter einem Dach
So wie es viele Arten von Intelligenz gibt, gibt es auch viele Arten von Deep-Learning-Modellen. Diese KI-Modelle sind sozusagen Rechenmodelle für das, was das Gehirn tut. Bis vor wenigen Jahren gab es keine wirklich vollständigen Rechenmodelle für die Sprachverarbeitung oder das Sehen. Sobald man in der Lage ist, präzise Modelle zu erstellen und sie mit realen Daten zu testen, ist man in einer Weise bereit, wie wir es vor zehn Jahren noch nicht waren.
Künstliche neuronale Netze ähneln dem Aufbau des Gehirns, denn sie bestehen aus dicht verknüpften Netzwerken einfacher Einheiten, die sich selbst organisieren — allerdings ist noch nicht ganz klar, wie sie funktionieren.
Niemand erwartet, dass Gehirne und Maschinen genau gleich funktionieren, obwohl einige Arten von Deep-Learning-Modellen dem Menschen ähnlicher sind als andere. Ein Computer-Vision-Modell reagiert beispielsweise auf Bilder in einer Weise, die der Aktivität im visuellen Kortex von Tieren, die dasselbe sehen, sehr ähnlich ist. Das Modell kann sogar Vorhersagen verwenden, um ein Bild zu erzeugen, das bestimmte Neuronen im Gehirn eines Tieres aktiviert.
Bei der Interpretation dessen, was künstliche Netze über die Biologie aussagen, ist jedoch Vorsicht geboten. Mit anderen Worten, wir sollten nicht automatisch davon ausgehen, dass ein Deep Network, das für eine Aufgabe trainiert wurde, wie das Gehirn aussieht. Natürlich ist es verlockend, neuronale Netze aufgrund ihrer architektonischen Ähnlichkeit als Modelle des Gehirns zu betrachten.
Die Forschung zu neuronalen Netzen, die die Position eines Objekts im Raum schätzen, indem sie Informationen über seine Geschwindigkeitsänderung integrieren, hat gezeigt, dass spezialisierte Neuronen im Gehirn, die so genannten Gitterzellen, diese Berechnungen durchführen, damit wir wissen, wo wir uns befinden, während wir uns durch die Welt bewegen. Andere Forschungen haben gezeigt, dass neuronale Netze nicht nur in der Lage sind, diese Berechnungen erfolgreich durchzuführen, sondern auch Komponenten enthalten, die sich auf bemerkenswerte Weise wie Gitterzellen verhalten. Sie hatten argumentiert, dass die Notwendigkeit dieser Art von Pfadintegration der Grund dafür sein müsse, dass unser Gehirn Gitterzellen hat — aber es stellte sich heraus, dass künstliche Netze nicht das Gehirn imitieren müssen, um diese gehirnähnliche Aufgabe zu erfüllen. Sie fanden heraus, dass viele neuronale Netze das gleiche Problem auch ohne gitterzellenähnliche Elemente lösen können.
Eine Möglichkeit, Deep-Learning-Modelle zu entwickeln, die wie das Gehirn funktionieren, besteht darin, ihnen ein Problem zu stellen, das so komplex ist, dass es nur einen Weg gibt, es zu lösen. Sprache ist eindeutig ein Beispiel für ein sehr komplexes Problem. Es besteht also die Hoffnung, dass sie eine Aufgabe lösen, die so unglaublich schwierig ist, dass sie vielleicht in gewisser Weise das Gehirn widerspiegelt.
Sprachliche Parallelen
In Labors, in denen Forscher sich darauf konzentrieren, die Schaltkreise des Gehirns für die Sprachverarbeitung zu identifizieren und zu verstehen, haben sie herausgefunden, dass einige Sprachmodelle tatsächlich bestimmte Aspekte der menschlichen Sprachverarbeitung nachahmen. Viele der effektivsten Modelle werden für eine einzige Aufgabe trainiert: Vorhersagen über den Gebrauch von Wörtern. Genau das macht dein Handy, wenn es dir beim Tippen Wörter für deine SMS vorschlägt. Es hat sich gezeigt, dass Modelle, die das gut können, diese Fähigkeit auch auf Gespräche, Aufsätze und andere nützliche Dinge übertragen können. Neurowissenschaftler haben Hinweise darauf gefunden, dass auch Menschen bei der Sprachverarbeitung auf Wortvorhersagen angewiesen sind.
Forscher verglichen die Aktivität von Sprachmodellen mit der Gehirnaktivität von Menschen, die Wörter, Sätze und Geschichten lasen oder hörten, und stellten fest, dass einige Modelle die menschlichen neuronalen Reaktionen besser wiedergaben als andere. Die Modelle, die bei dieser relativ einfachen Aufgabe besser abschneiden — nämlich zu erraten, was als nächstes kommt -, sind auch besser darin, menschliche neuronale Reaktionen zu erfassen.
Dies ist eine faszinierende Parallele, die darauf hindeutet, dass Computermodelle und das menschliche Gehirn ähnliche Lösungen für ein Problem gefunden haben könnten, selbst wenn man die biologischen Grenzen des Gehirns berücksichtigt. Dies hat zu neuen Ideen geführt, die zum Teil durch die Modifikation bestehender Sprachmodelle untersucht werden sollen, um möglicherweise das Gehirn besser zu imitieren.
Da so wenig darüber bekannt ist, wie menschliche und künstliche neuronale Netze lernen, ist es schwierig vorherzusagen, was notwendig ist, damit Sprachmodelle funktionieren und sich mehr wie das menschliche Gehirn verhalten. Eine Möglichkeit, die die Forscher untersuchen, besteht darin, ein Modell so zu trainieren, dass es der Art und Weise ähnelt, in der Kinder im frühen Alter Sprache lernen.
Eine andere Frage ist, ob sich Sprachmodelle vielleicht eher wie Menschen verhalten, wenn sie nur eine begrenzte Erinnerung an ihre eigenen Gespräche haben. Alle modernen Sprachmodelle behalten sehr, sehr lange sprachliche Kontexte im Gedächtnis. Menschen tun das nicht. Chatbots können sich an lange Dialogstränge erinnern und ihre Antworten im Laufe eines Gesprächs daran anpassen. Menschen hingegen müssen mit einem begrenzten Gedächtnis auskommen. Wir können zwar Informationen verfolgen, während sie übermittelt werden, aber wir können uns beim Zuhören oder Lesen nur eine Folge von etwa acht Wörtern merken. Mit anderen Worten, wir erhalten sprachlichen Input, verarbeiten ihn, extrahieren eine Art Bedeutungsrepräsentation, wahrscheinlich in einem abstrakteren Format, und verwerfen dann den genauen Sprachfluss, weil wir ihn nicht mehr brauchen.
Sprachmodelle sind nicht in der Lage, Gesprächslücken mit eigenem Wissen und Bewusstsein zu füllen, wie es ein Mensch kann. Deshalb müssen sie bisher jedem Wort folgen, das eingegeben wird. Wenn wir ein Modell wollen, das speziell das menschliche Sprachnetzwerk modelliert, brauchen wir dieses große Kontextfenster nicht. Es wäre sehr cool, diese Modelle mit diesen kleinen Kontextfenstern zu trainieren und zu sehen, ob sie dem Sprachnetzwerk ähnlicher sind.
Multimodale Intelligenz
Trotz dieser Parallelen gibt es viele Dinge, die Sprachschaltkreise nicht können. Das Gehirn verwendet andere Schaltkreise, um mathematische Probleme zu lösen, Computercodes zu schreiben und unzählige andere kognitive Prozesse auszuführen. Ihre Arbeit macht deutlich, dass Sprache und Denken im Gehirn nicht dasselbe sind. Bestätigt wird dies durch die Erkenntnisse kognitiver Neurowissenschaftler wie Kanwisher über die funktionelle Organisation des menschlichen Gehirns, in dem Schaltkreise für erstaunlich spezifische Aufgaben zuständig sind, von der Sprachverarbeitung bis zur Gesichtserkennung.
Im Januar veröffentlichten die Forscher eine umfassende Analyse der Fähigkeiten großer Sprachmodelle. Bei der Bewertung der Leistung der Modelle in verschiedenen sprachbezogenen Aufgaben zeigte sich, dass diese Modelle zwar sprachliche Regeln und Muster beherrschen, aber bei der Anwendung von Sprache in realen Situationen nicht gut abschneiden. Aus neurowissenschaftlicher Sicht unterscheidet sich diese Art der funktionalen Kompetenz von der formalen Sprachkompetenz, da sie nicht nur sprachverarbeitende Schaltkreise beansprucht, sondern auch Teile des Gehirns, die Wissen über die Welt speichern, logisch denken und soziale Interaktionen interpretieren.
Sprache ist ein mächtiges Werkzeug, um die Welt zu verstehen, aber sie hat auch ihre Grenzen. Wenn man nur die sprachliche Vorhersage trainiert, kann man lernen, bestimmte Aspekte des Denkens nachzuahmen. Aber das reicht nicht aus. Man braucht ein multimodales System, um wirklich intelligentes Verhalten zu zeigen.
Man kommt zu dem Schluss, dass KI-Sprachmodelle zwar sehr gut mit Sprache umgehen können, aber unvollständige Modelle des menschlichen Denkens sind. Damit Maschinen wirklich wie Menschen denken können, brauchen sie eine Kombination verschiedener neuronaler Netze, die alle zusammenarbeiten, so wie die verschiedenen Netze im menschlichen Gehirn zusammenarbeiten, um komplexe kognitive Aufgaben in der realen Welt zu bewältigen. Es bleibt abzuwarten, ob sich solche Modelle in der Welt der Technik bewähren, aber sie könnten sich als wertvoll erweisen, wenn es darum geht, Einblicke in die menschliche Kognition zu gewinnen — vielleicht in einer Weise, die es Ingenieuren ermöglicht, Systeme zu entwickeln, die die menschliche Intelligenz besser imitieren.