Was ChatGPT & Co. über unser Gehirn ver­ra­ten

Künst­li­che Intel­li­genz scheint in letz­ter Zeit immer intel­li­gen­ter gewor­den zu sein. KI-Tech­no­lo­gien wer­den immer mehr in unser Leben inte­griert — sie ver­bes­sern unsere Wet­ter­vor­her­sa­gen, fin­den effi­zi­ente Rou­ten im Ver­kehr, per­so­na­li­sie­ren die Wer­bung, die wir sehen, und unsere Erfah­run­gen mit sozia­len Medien.

Das Wesen der mensch­li­chen Intel­li­genz ist schwer zu beschrei­ben, geschweige denn zu ent­wi­ckeln. Man sagt, dass es viele Arten von Intel­li­genz gibt und dass wir als Men­schen auf viele ver­schie­dene Arten von Wis­sen und Denk­wei­sen zurück­grei­fen. Die Fähig­keit von ChatGPT, natür­li­che Kon­ver­sa­tio­nen mit sei­nen Benut­zern zu füh­ren, hat zu Spe­ku­la­tio­nen geführt, dass das Com­pu­ter­mo­dell emp­fin­dungs­fä­hig sei, aber es muss betont wer­den, dass KI-Tech­no­lo­gie nicht in der Lage ist, selbst zu den­ken. Den­noch könnte die­ser Bereich an einem Wen­de­punkt ange­langt sein.

Eine andere Art von Intel­li­genz

ChatGPT wurde von der Firma Ope­nAI ent­wi­ckelt und ist ein Bei­spiel für ein tie­fes neu­ro­na­les Netz­werk, eine Form des maschi­nel­len Ler­nens, die in fast allen Berei­chen der Wis­sen­schaft und Tech­no­lo­gie ein­ge­setzt wird. Diese Modelle ler­nen, ver­schie­dene Auf­ga­ben zu erfül­len, indem sie Mus­ter in gro­ßen Daten­sät­zen erken­nen. ChatGPT durch­sucht Texte und erkennt und repro­du­ziert, wie Spra­che ver­wen­det wird. Auf der Grund­lage von Sprach­mus­tern, die es im Inter­net fin­det, kann ChatGPT dir einen Menü­plan erstel­len, dir etwas über Rake­ten­wis­sen­schaft bei­brin­gen oder einen Auf­satz über Mark Twain auf High­school-Niveau schrei­ben. Durch das Inter­net als Lern­me­dium sind diese Modelle so gut gewor­den, dass sie als all­wis­send gel­ten kön­nen.

Die Fähig­kei­ten von Sprach­mo­del­len sind jedoch begrenzt. Wenn Du lange genug mit ChatGPT spielst, wird es Dir sicher einige fal­sche Infor­ma­tio­nen geben, auch wenn es durch seine flüs­sige Spra­che täu­schend echt aus­sieht. In Wirk­lich­keit wis­sen diese Modelle nichts über die Welt, sie wis­sen nichts über die men­ta­len Zustände ande­rer Men­schen, sie wis­sen nicht, wie die Dinge sind, außer dem, was sie aus dem Zusam­men­spiel von Wör­tern schlie­ßen kön­nen.

Ein sol­ches Modell kann die kom­plexe Infor­ma­ti­ons­ver­ar­bei­tung des mensch­li­chen Gehirns nicht nach­bil­den. Das heißt nicht, dass Sprach­mo­delle nicht intel­li­gent sein kön­nen — aber sie haben eine andere Art von Intel­li­genz als wir. Ich glaube sogar, dass es unend­lich viele ver­schie­dene For­men von Intel­li­genz gibt. Inge­nieure haben einige die­ser For­men von Intel­li­genz erfun­den, seit es Com­pu­ter gibt. ChatGPT ist eine davon. Aber sie ist sehr weit von der mensch­li­chen Intel­li­genz ent­fernt.

Alles unter einem Dach

So wie es viele Arten von Intel­li­genz gibt, gibt es auch viele Arten von Deep-Lear­ning-Model­len. Diese KI-Modelle sind sozu­sa­gen Rechen­mo­delle für das, was das Gehirn tut. Bis vor weni­gen Jah­ren gab es keine wirk­lich voll­stän­di­gen Rechen­mo­delle für die Sprach­ver­ar­bei­tung oder das Sehen. Sobald man in der Lage ist, prä­zise Modelle zu erstel­len und sie mit rea­len Daten zu tes­ten, ist man in einer Weise bereit, wie wir es vor zehn Jah­ren noch nicht waren.

Künst­li­che neu­ro­nale Netze ähneln dem Auf­bau des Gehirns, denn sie bestehen aus dicht ver­knüpf­ten Netz­wer­ken ein­fa­cher Ein­hei­ten, die sich selbst orga­ni­sie­ren — aller­dings ist noch nicht ganz klar, wie sie funk­tio­nie­ren.

Nie­mand erwar­tet, dass Gehirne und Maschi­nen genau gleich funk­tio­nie­ren, obwohl einige Arten von Deep-Lear­ning-Model­len dem Men­schen ähn­li­cher sind als andere. Ein Com­pu­ter-Vision-Modell reagiert bei­spiels­weise auf Bil­der in einer Weise, die der Akti­vi­tät im visu­el­len Kor­tex von Tie­ren, die das­selbe sehen, sehr ähn­lich ist. Das Modell kann sogar Vor­her­sa­gen ver­wen­den, um ein Bild zu erzeu­gen, das bestimmte Neu­ro­nen im Gehirn eines Tie­res akti­viert.

Bei der Inter­pre­ta­tion des­sen, was künst­li­che Netze über die Bio­lo­gie aus­sa­gen, ist jedoch Vor­sicht gebo­ten. Mit ande­ren Wor­ten, wir soll­ten nicht auto­ma­tisch davon aus­ge­hen, dass ein Deep Net­work, das für eine Auf­gabe trai­niert wurde, wie das Gehirn aus­sieht. Natür­lich ist es ver­lo­ckend, neu­ro­nale Netze auf­grund ihrer archi­tek­to­ni­schen Ähn­lich­keit als Modelle des Gehirns zu betrach­ten.

Die For­schung zu neu­ro­na­len Net­zen, die die Posi­tion eines Objekts im Raum schät­zen, indem sie Infor­ma­tio­nen über seine Geschwin­dig­keits­än­de­rung inte­grie­ren, hat gezeigt, dass spe­zia­li­sierte Neu­ro­nen im Gehirn, die so genann­ten Git­ter­zel­len, diese Berech­nun­gen durch­füh­ren, damit wir wis­sen, wo wir uns befin­den, wäh­rend wir uns durch die Welt bewe­gen. Andere For­schun­gen haben gezeigt, dass neu­ro­nale Netze nicht nur in der Lage sind, diese Berech­nun­gen erfolg­reich durch­zu­füh­ren, son­dern auch Kom­po­nen­ten ent­hal­ten, die sich auf bemer­kens­werte Weise wie Git­ter­zel­len ver­hal­ten. Sie hat­ten argu­men­tiert, dass die Not­wen­dig­keit die­ser Art von Pfad­in­te­gra­tion der Grund dafür sein müsse, dass unser Gehirn Git­ter­zel­len hat — aber es stellte sich her­aus, dass künst­li­che Netze nicht das Gehirn imi­tie­ren müs­sen, um diese gehirn­ähn­li­che Auf­gabe zu erfül­len. Sie fan­den her­aus, dass viele neu­ro­nale Netze das glei­che Pro­blem auch ohne git­ter­zel­len­ähn­li­che Ele­mente lösen kön­nen.

Eine Mög­lich­keit, Deep-Lear­ning-Modelle zu ent­wi­ckeln, die wie das Gehirn funk­tio­nie­ren, besteht darin, ihnen ein Pro­blem zu stel­len, das so kom­plex ist, dass es nur einen Weg gibt, es zu lösen. Spra­che ist ein­deu­tig ein Bei­spiel für ein sehr kom­ple­xes Pro­blem. Es besteht also die Hoff­nung, dass sie eine Auf­gabe lösen, die so unglaub­lich schwie­rig ist, dass sie viel­leicht in gewis­ser Weise das Gehirn wider­spie­gelt.

Sprach­li­che Par­al­le­len

In Labors, in denen For­scher sich dar­auf kon­zen­trie­ren, die Schalt­kreise des Gehirns für die Sprach­ver­ar­bei­tung zu iden­ti­fi­zie­ren und zu ver­ste­hen, haben sie her­aus­ge­fun­den, dass einige Sprach­mo­delle tat­säch­lich bestimmte Aspekte der mensch­li­chen Sprach­ver­ar­bei­tung nach­ah­men. Viele der effek­tivs­ten Modelle wer­den für eine ein­zige Auf­gabe trai­niert: Vor­her­sa­gen über den Gebrauch von Wör­tern. Genau das macht dein Handy, wenn es dir beim Tip­pen Wör­ter für deine SMS vor­schlägt. Es hat sich gezeigt, dass Modelle, die das gut kön­nen, diese Fähig­keit auch auf Gesprä­che, Auf­sätze und andere nütz­li­che Dinge über­tra­gen kön­nen. Neu­ro­wis­sen­schaft­ler haben Hin­weise dar­auf gefun­den, dass auch Men­schen bei der Sprach­ver­ar­bei­tung auf Wort­vor­her­sa­gen ange­wie­sen sind.

For­scher ver­gli­chen die Akti­vi­tät von Sprach­mo­del­len mit der Gehirn­ak­ti­vi­tät von Men­schen, die Wör­ter, Sätze und Geschich­ten lasen oder hör­ten, und stell­ten fest, dass einige Modelle die mensch­li­chen neu­ro­na­len Reak­tio­nen bes­ser wie­der­ga­ben als andere. Die Modelle, die bei die­ser rela­tiv ein­fa­chen Auf­gabe bes­ser abschnei­den — näm­lich zu erra­ten, was als nächs­tes kommt -, sind auch bes­ser darin, mensch­li­che neu­ro­nale Reak­tio­nen zu erfas­sen.

Dies ist eine fas­zi­nie­rende Par­al­lele, die dar­auf hin­deu­tet, dass Com­pu­ter­mo­delle und das mensch­li­che Gehirn ähn­li­che Lösun­gen für ein Pro­blem gefun­den haben könn­ten, selbst wenn man die bio­lo­gi­schen Gren­zen des Gehirns berück­sich­tigt. Dies hat zu neuen Ideen geführt, die zum Teil durch die Modi­fi­ka­tion bestehen­der Sprach­mo­delle unter­sucht wer­den sol­len, um mög­li­cher­weise das Gehirn bes­ser zu imi­tie­ren.

Da so wenig dar­über bekannt ist, wie mensch­li­che und künst­li­che neu­ro­nale Netze ler­nen, ist es schwie­rig vor­her­zu­sa­gen, was not­wen­dig ist, damit Sprach­mo­delle funk­tio­nie­ren und sich mehr wie das mensch­li­che Gehirn ver­hal­ten. Eine Mög­lich­keit, die die For­scher unter­su­chen, besteht darin, ein Modell so zu trai­nie­ren, dass es der Art und Weise ähnelt, in der Kin­der im frü­hen Alter Spra­che ler­nen.

Eine andere Frage ist, ob sich Sprach­mo­delle viel­leicht eher wie Men­schen ver­hal­ten, wenn sie nur eine begrenzte Erin­ne­rung an ihre eige­nen Gesprä­che haben. Alle moder­nen Sprach­mo­delle behal­ten sehr, sehr lange sprach­li­che Kon­texte im Gedächt­nis. Men­schen tun das nicht. Chat­bots kön­nen sich an lange Dia­logstränge erin­nern und ihre Ant­wor­ten im Laufe eines Gesprächs daran anpas­sen. Men­schen hin­ge­gen müs­sen mit einem begrenz­ten Gedächt­nis aus­kom­men. Wir kön­nen zwar Infor­ma­tio­nen ver­fol­gen, wäh­rend sie über­mit­telt wer­den, aber wir kön­nen uns beim Zuhö­ren oder Lesen nur eine Folge von etwa acht Wör­tern mer­ken. Mit ande­ren Wor­ten, wir erhal­ten sprach­li­chen Input, ver­ar­bei­ten ihn, extra­hie­ren eine Art Bedeu­tungs­re­prä­sen­ta­tion, wahr­schein­lich in einem abs­trak­te­ren For­mat, und ver­wer­fen dann den genauen Sprach­fluss, weil wir ihn nicht mehr brau­chen.

Sprach­mo­delle sind nicht in der Lage, Gesprächs­lü­cken mit eige­nem Wis­sen und Bewusst­sein zu fül­len, wie es ein Mensch kann. Des­halb müs­sen sie bis­her jedem Wort fol­gen, das ein­ge­ge­ben wird. Wenn wir ein Modell wol­len, das spe­zi­ell das mensch­li­che Sprach­netz­werk model­liert, brau­chen wir die­ses große Kon­text­fens­ter nicht. Es wäre sehr cool, diese Modelle mit die­sen klei­nen Kon­text­fens­tern zu trai­nie­ren und zu sehen, ob sie dem Sprach­netz­werk ähn­li­cher sind.

Mul­ti­mo­dale Intel­li­genz

Trotz die­ser Par­al­le­len gibt es viele Dinge, die Sprach­schalt­kreise nicht kön­nen. Das Gehirn ver­wen­det andere Schalt­kreise, um mathe­ma­ti­sche Pro­bleme zu lösen, Com­pu­ter­codes zu schrei­ben und unzäh­lige andere kogni­tive Pro­zesse aus­zu­füh­ren. Ihre Arbeit macht deut­lich, dass Spra­che und Den­ken im Gehirn nicht das­selbe sind. Bestä­tigt wird dies durch die Erkennt­nisse kogni­ti­ver Neu­ro­wis­sen­schaft­ler wie Kan­wis­her über die funk­tio­nelle Orga­ni­sa­tion des mensch­li­chen Gehirns, in dem Schalt­kreise für erstaun­lich spe­zi­fi­sche Auf­ga­ben zustän­dig sind, von der Sprach­ver­ar­bei­tung bis zur Gesichts­er­ken­nung.

Im Januar ver­öf­fent­lich­ten die For­scher eine umfas­sende Ana­lyse der Fähig­kei­ten gro­ßer Sprach­mo­delle. Bei der Bewer­tung der Leis­tung der Modelle in ver­schie­de­nen sprach­be­zo­ge­nen Auf­ga­ben zeigte sich, dass diese Modelle zwar sprach­li­che Regeln und Mus­ter beherr­schen, aber bei der Anwen­dung von Spra­che in rea­len Situa­tio­nen nicht gut abschnei­den. Aus neu­ro­wis­sen­schaft­li­cher Sicht unter­schei­det sich diese Art der funk­tio­na­len Kom­pe­tenz von der for­ma­len Sprach­kom­pe­tenz, da sie nicht nur sprach­ver­ar­bei­tende Schalt­kreise bean­sprucht, son­dern auch Teile des Gehirns, die Wis­sen über die Welt spei­chern, logisch den­ken und soziale Inter­ak­tio­nen inter­pre­tie­ren.

Spra­che ist ein mäch­ti­ges Werk­zeug, um die Welt zu ver­ste­hen, aber sie hat auch ihre Gren­zen. Wenn man nur die sprach­li­che Vor­her­sage trai­niert, kann man ler­nen, bestimmte Aspekte des Den­kens nach­zu­ah­men. Aber das reicht nicht aus. Man braucht ein mul­ti­mo­da­les Sys­tem, um wirk­lich intel­li­gen­tes Ver­hal­ten zu zei­gen.

Man kommt zu dem Schluss, dass KI-Sprach­mo­delle zwar sehr gut mit Spra­che umge­hen kön­nen, aber unvoll­stän­dige Modelle des mensch­li­chen Den­kens sind. Damit Maschi­nen wirk­lich wie Men­schen den­ken kön­nen, brau­chen sie eine Kom­bi­na­tion ver­schie­de­ner neu­ro­na­ler Netze, die alle zusam­men­ar­bei­ten, so wie die ver­schie­de­nen Netze im mensch­li­chen Gehirn zusam­men­ar­bei­ten, um kom­plexe kogni­tive Auf­ga­ben in der rea­len Welt zu bewäl­ti­gen. Es bleibt abzu­war­ten, ob sich sol­che Modelle in der Welt der Tech­nik bewäh­ren, aber sie könn­ten sich als wert­voll erwei­sen, wenn es darum geht, Ein­bli­cke in die mensch­li­che Kogni­tion zu gewin­nen — viel­leicht in einer Weise, die es Inge­nieu­ren ermög­licht, Sys­teme zu ent­wi­ckeln, die die mensch­li­che Intel­li­genz bes­ser imi­tie­ren.