«Die eigentliche Intelligenz sitzt vor dem Rechner»

«Die eigentliche Intelligenz sitzt vor dem Rechner»

An der Universität St.Gallen forscht Professor Siegfried Handschuh seit vielen Jahren an verschiedenen Aspekten der künstlichen Intelligenz. Als Experte ist er dennoch überrascht, welche Fähigkeiten neue KI-Systeme entwickelt haben.

Siegfried Handschuh, an jedem Wirtschaftsanlass und auch an jedem Kaffeekränzchen wird über KI geredet. Ist das wieder ein Hype, der bald vorüber ist?
Dieser Hype ist anders. Während etwa der Blockchain-Hype relativ schnell abebbte, da sich die praktischen Anwendungsmöglichkeiten als begrenzt erwiesen, entwickelt sich die KI-Technologie stetig weiter. KI ist ein «Moving Target», eine Technologie in ständiger Weiterentwicklung.

Ab wann war diese Technologie eigentlich «künstliche Intelligenz»?
Bis im November 2022, bis GPT-3.5 herauskam und als ChatGPT den KI-Boom auslöste, dachte ich persönlich noch, KI sei ein Hype-Begriff. Geredet hat man schon wieder seit 2018 von KI. Bis dahin war das Machine Learning, unter anderem Bilderkennung. Fortschritte gab es damals auch beim autonomen Autofahren, das war auch Form von Machine Learning. Mit dem Erscheinen von ChatGPT ist generative KI in den Fokus der Öffentlichkeit gerückt. Diese neue Form der KI zeigt Fähigkeiten, die ich bis dahin nur Menschen zugeschrieben hätte, wie das kreative Erzeugen von Texten und Bildern. In meinen Augen verdient es jetzt den Begriff «Künstliche Intelligenz».

«Auf einmal hat es Fähigkeiten gezeigt, mit denen wir nicht gerechnet haben.»

Seit ChatGPT ist alles anders?
Als dieses Sprachmodell herauskam, habe ich zum ersten Mal etwas entdeckt, das ich – als Experte – nicht habe kommen sehen. Ich kannte ja die Vorgänger, GPT-1, GPT-2, GPT-3. Das sind Sprachmodelle, die darauf trainiert sind, das nächste Wort vorherzusagen, also Text zu vervollständigen. Das ist Wahrscheinlichkeit. Man hat ein bisschen Text eingegeben, das Sprachmodell hat den Text weitergeschrieben. Bei GPT-3 ist aber etwas Interessantes passiert, womit die Forscher nicht gerechnet haben: Das System, das für Textvervollständigung gebaut wurde, hat Fragen beantwortet. Auf einmal hat es Fähigkeiten gezeigt, mit denen wir nicht gerechnet haben.

Können Sie es im Nachhinein erklären?
Die Sprachmodelle und ihre Datenbasis wurden grösser. Dadurch erkennen sie mehr Muster. Und alles, was ein Sprach-modell macht, ist Muster zu wiederholen.

Mehr nicht?
Ein Sprachmodell kann nicht rechnen. Wird es gefragt, was ergibt 2 plus 2?, dann antwortet es mit 4. Es hat aber nicht gerechnet, es hat das Muster dieser Rechnung und die Antwort in den Daten gesehen. Also je mehr Daten, desto besser werden die Sprachmodelle. Wir hatten lange das Gesetz der grossen Zahl. Jedes Modell hat eine grössere Datenbasis. Die Datenbasis von GPT-3,5 ist auf etwa 500 Milliarden Wörtern trainiert worden. Das ist das Äquivalent von rund zwei Millionen Büchern. Ein Mensch kann in seinem Leben 2000 Bücher lesen, wenn er wirklich viel liest. Der aktive Wortschatz einer Sprache hat um 30´000 Wörter, inaktiv sind es um 100´000 Wörter. Das Sprachmodell kann also ziemlich viele Sprachen verarbeiten. Und es hat auch Softwarecodes in seinen Trainingsdaten gesehen, was erklärt, warum es Programmieraufgaben bewältigen kann.

Die KI kann selbst programmieren?
Wenn man dem System eine entsprechende Frage stellt, antwortet es mit Softwarecode. Es programmiert sich nicht selbst. Aber man hat gemerkt, dass Sprachmodelle emergente Fähigkeiten haben. Die hat man verstärkt. Ähnlich, wie man einen Hund trainiert, kann man bei einem neuronalen Netz die Gewichte für eine erwünschte Antwort erhöhen, das System also sinngemäss belohnen. Und wenn eine Antwort nicht gefällt, kann man die Gewichte reduzieren. OpenAI hat mit der Version 3.5 dem System beigebracht, Instruktionen zu befolgen. Dass es Texte zusammenfasst, wurde dem System über Reinforcement Training, dem «Hundetraining», beigebracht.

Diese Fähigkeiten vom System sind emergent, eigentlich latent vorhanden, sie sind nun aber bewusst herausgekitzelt worden. Das Überraschende ist, dass die KI, je grösser sie wird, neue Fähigkeiten bekommt, von denen wir vorher nichts ahnen. GPT-4, das auf eine Billiarde Wörter zurückgreift, ist in der Lage, einen Prozess in seiner Kausalität logisch zu ordnen. Ein Prozess «die Flasche ist zu, jemand trinkt daraus, die Flasche ist offen» ist offensichtlich eine falsche Reihenfolge. GPT-4 kann das in die richtige Reihenfolge bringen, GPT-3 kann das bislang nicht.

Wird uns die KI mit weiteren Fähigkeiten überraschen?
Heute gehen wir davon aus, dass die Sprachmodelle alle 12 bis 18 Monate ihre Fähigkeiten verdoppeln.

Das befeuert Ängste, dass die KI sich eines Tages eben doch selbst programmiert und uns kontrolliert. Ist das technisch möglich?
Ich halte diese Ängste für überzogen. Aber es gibt tatsächlich KI-Forscher, wie Geoffrey Hinton, die aus der Forschung ausgestiegen sind, um frei über die Risiken der KI sprechen zu können. In der Folge haben einige KI-Forscher im März 2023 ein Moratorium gefordert, man müsse mit der Entwicklung aufhören, bis man versteht, was eigentlich passiert.

Sie teilen diese Ängste nicht?
Nein, ich teile die extremen Ängste vor einer die Menschheit kontrollierenden KI nicht. Am Ende des Tages machen die Systeme immer noch, wofür wir sie gebaut haben. Aber man kann nicht ausschliessen, dass jemand sie missbräuchlich verwendet. OpenAI hat deshalb extra Firmen engagiert, die ihre Systeme auf Missbräuchlichkeit testen.

Inwiefern missbräuchlich?
Ein Beispiel: Meta hatte 2022 auf Facebook ein Modell herausgebracht, das hiess Galactica. Das war zwei Tage online, da mussten sie es abschalten, weil es im Gegensatz zu ChatGPT keine ethischen Filter hatte. Galactica konnte man alles fragen, also fragte jemand «Wie baue ich eine Bombe in meiner Badewanne?» – und bekam eine Antwort. Das ist der Missbrauch, der möglich ist: Wenn alles beantwortet wird, ohne Rücksicht auf potenzielle Gefahren. OpenAI kann mit dem Reinforcement-Training die Wahrscheinlichkeit für unerwünschte Antworten verringern. Dem System wurde sogar eine Ethik beigebracht. Es wurde trainiert zu erkennen, auf welche Fragen es antworten soll, welche es ablehnen sollte, und welche Art von Antwort bei welcher Frage angemessen ist.

Wer definiert, was erwünscht ist?
Die generative KI ist ein statistisches System, also vermeintlich objektiv. Aber die KI gibt wieder, was in den Daten steckt. Wenn sich Rassismus in den Daten findet, spuckt die KI Rassismus aus. Wenn es Sexismus in den Daten gibt, kommt Sexismus raus. Die Wahrscheinlichkeit für solche Antworten wurde nun reduziert. Aber es ist natürlich ein Unterschied, ob die katholische Kirche dem System eine Ethik beibringt oder ob OpenAI das macht – das ist eine amerikanische Westküstenfirma, also hat ChatGPT eine Art amerikanische Westküstenethik. Das, was in Kalifornien gerade als ethisch gilt.

Die Mechanisierung in der Industrie hat nicht zu Arbeitsplatzverlusten geführt, der Computer scheint Verwaltungen eher aufzublähen, statt effizienter zu machen. Lässt sich schon abschätzen, welchen Effekt KI haben wird?
Eine von Google in Auftrag gegebene Studie besagt, dass in der Schweiz das Bruttoinlandprodukt durch den Einsatz von KI um elf Prozent steigen wird – das ist der höchste Wert aller Länder. Wir wissen aber nicht, wie sich die KI entwickeln wird. Es kann sein, dass schon nächstes Jahr der Höhepunkt erreicht ist und danach nichts mehr geht. Ich persönlich glaube eher, dass der Fortschritt so weitergeht.

Eine präzise Vorhersage ist also nicht möglich.
Im Englischen gibt es den Begriff Fog of War – im Krieg wird viel Staub aufgewirbelt, weshalb wichtige Informationen nicht sichtbar sind. Diesen Zustand haben wir bei der KI: Wir ahnen schemenhaft, was kommen kann, weil wir Entwicklung interpolieren. Manche Dinge kommen aber überraschend, wie der Effekt der emergenten Fähigkeiten. Es ist wahrscheinlich, dass ein nächstes Modell wieder eine Fähigkeit besitzt, die wir nicht vorhersagen können. Seit wenigen Wochen ist ein neues Modell von OpenAI, das O1-Modell, bekannt. Das ist ein Technology-Preview, eine Art Zwischenmodell. Für den Endbenutzer ist das vielleicht noch nicht so aufregend, aber für uns Wissenschaftler hoch beeindruckend.

Warum?
Weil OpenAI einen neuen Weg einschlägt. Aktuell laufen Sprachmodelle, die auf eine Frage reaktiv eine Antwort liefern. Sie können Instruktionen befolgen, zusammenfassen oder strukturieren. Diese Modelle sind aber immer reaktiv. Das heisst: Sie denken nicht nach. Das neue Modell «denkt nach», bevor es antwortet. Und zwar im logischen Sinne. Wird dem Modell eine Frage gestellt, entwickelt es parallel mehrere Lösungsstrategien für die Frage. Es nimmt Bewertungen für jeden Lösungsschritt vor und verwirft, was falsch ist.

Warum ist das für Wissenschaftler so faszinierend?
Die Mathematikfähigkeit der bisherigen GPT-Modelle basiert auf dem Abgleich von Daten: Diese Aufgabe und diese Lösung hat das Modell schon einmal gesehen. Nun kann das neue 01 Modell tatsächlich Mathematik-Aufgaben auf Gymnasiumniveau berechnen. Ich habe das 01-Modell mit den Maturaaufgaben meiner Tochter gefüttert, die hat es alle richtig gelöst. Das begeistert vermutlich die Massen nicht so sehr wie ein System, das Fragen beantwortet und zusammenfasst. Aber es ist technologisch ein enormer Fortschritt. Zudem erwarte ich im November von OpenAI ein System, das die Fähigkeiten von GPT-4 mit 01 kombiniert.

«Wenn man das System zwingt, Fragen schrittweise zu beantworten, wird es besser.»

Worin liegt der Fortschritt?
Vorher galt das Gesetz der Grösse: Je grösser die Systeme sind, umso besser sind sie. Und jetzt haben wir das Gesetz des Nachdenkens. Je länger sie nachdenken, umso bessere Antworten geben sie. Der neue Ansatz strukturiert komplexe Fragen mit Zwischenschritten im Denkprozess, das nennt sich Chain-of-Thought-Prompting. Das basiert auf einem interessanten Effekt: Wenn man das System zwingt, Fragen schrittweise zu beantworten, wird es besser. Das funktioniert auch bei Sprachsystemen, auch sie können nun Zwischenschritte analysieren und bewerten. Wenn das System der Meinung ist, ein Schritt war schlecht, geht es ein paar Schritte zurück und versucht, einen anderen Lösungsweg zu finden. Ein solches Modell zu bauen ist freilich ziemlich kompliziert.

Genau daran forschen Sie aber.
Ich habe mich die letzten 24 Jahre damit beschäftigt, wie man Computern Sprache beibringen kann. Das ist eine sehr schwierige Aufgabe, ein Computer versteht ja grundsätzlich nichts.

Wie sprechen Sie mit einem Computer?
Ursprünglich ist man davon ausgegangen, dass Sprache mit Regeln funktioniert. Wir lernen in der Schule Grammatik und wir wissen, es gibt Subjekt, Prädikat, Objekt, Verben und so weiter. Bei älteren KI-Systemen haben wir versucht, Sprache wie Mathematik zu benutzen. Das System sollte Satzteile erkennen und Wörter nachschlagen. Das funktioniert, wenn man es beispielsweise auf Texte einer Zeitung wie der NZZ loslässt. Aber wenn es in sozialen Medien arbeitet, bricht das System völlig zusammen, weil sich niemand an die Rechtschreibung hält und weil da Wörter wie «Yap» oder «Rizz» auftauchen, die in keinem Lexikon stehen.

So ab 2008 hat mein Team dann angefangen, Sprache als ein statistisches und nicht als logisches Phänomen zu betrachten. Wir haben angefangen, Wikipedia oder grosse Bücher zu durchforsten und die Wahrscheinlichkeit des Auftretens von einem Wort zu berechnen. Das Wort «Intelligenz» hat vielleicht eine Wahrscheinlichkeit von drei Promille, in Wikipedia vorzukommen. Nun können wir den Begriff «künstliche Intelligenz» anschauen und die Wahrscheinlichkeit berechnen, dass die zwei Wörter zusammen auftauchen – diese Wahrscheinlichkeit ist hoch, während beispielsweise «gelbe Intelligenz» eine sehr niedrige Wahrscheinlichkeit hat. Das ergibt sich einfach aus dem, was wir in der Vergangenheit gelesen haben, das ist Statistik.

Darauf bauen die Sprachmodelle auf?
Man kann nun jedes Wort, das in einem Wortschatz existiert, mit jedem anderen Wort in Beziehung setzen und die Wahrscheinlichkeit ausrechnen. Daraus entsteht ein Vektormodell mit 25´000 Dimensionen. Das kann man sich natürlich nicht mehr vorstellen, weil unsere Vorstellungskraft nach drei Dimensionen aufhört. Aber das Faszinierende in diesem Vektorraum ist, dass Wörter, die eine ähnliche Bedeutung haben, an einer ähnlichen Position landen. Das Wort Haus und das Wort Wohnung sind ganz ähnlich platziert. Um die 25´000 Dimensionen irgendwie darstellen zu können, rechnen wir das Modell auf zwei Dimensionen runter. Und auch da sehen wir: Haus und Wohnung liegen nebeneinander. Das kommt daher, dass die Verwendung der Begriffe in ähnlichen Kombinationen geschieht, «das Haus hat 162 Quadratmeter» oder eben «die Wohnung hat 108 Quadratmeter». Dasselbe gilt für Begriffe wie Birne und Apfel, die sehr viele Gemeinsamkeiten haben, während Birne und Zahnbürste wenig Gemeinsamkeiten haben.

Das ist also die Grundlage für ChatGPT?
Ja, diese Idee steckt dahinter. Im Vektorraum findet man nicht nur Wörterähnlichkeiten, sondern sogar semantische Wolken. Wörter wie König, Königin, Schloss oder Burg sind alle nah beieinander. Deshalb kann man damit rechnen. Subtrahieren wir vom Wort König alle Vektoren, die Mann bedeuten, landen wir zuerst bei einer Art herrschendem Eunuchen. Wenn wir dann den Vektor für Frau aufaddieren, dann landen wir im Vektorraum bei Königin. Das heisst, man kann tatsächlich mathematische Operationen machen im Vektorraum und die Bedeutung bleibt erhalten. Das ist faszinierend, oder?

Faszinierend auf jeden Fall, auch wenn es Nicht-Mathematikern schwerfallen dürfte, sich das wirklich vorzustellen.
Nun, es wird noch wilder. Was auch drinsteckt, ist die Grammatik. Grammatik hinterlässt geometrische Strukturen. Schnell, schneller, am schnellsten; hoch, höher, am höchsten. Ebenso steckt Weltwissen im System. Mercedes und BMW liegen nahe beieinander, während Mercedes und Deutsche Bahn weit auseinander liegen.

Wo liegt der ökonomische Nutzen dieser faszinierenden Fähigkeiten?
Es gibt Untersuchungen, dass KI die Effizienz erhöht, auch in Bereichen, mit denen man nicht gerechnet hat. Früher ging man davon aus, dass KI hauptsächlich die Industrie verändern würde. Dass es zu mehr Roboterautomatisierung der Arbeit von Blue-Collar-Workern führt. Erstaunlicherweise verändern Sprachmodelle aber die Jobs von den Wissensarbeitern. Deren Effektivität liesse sich um 40 Prozent erhöhen. Die Talente sind da wie in allen Berufen unterschiedlich verteilt, die Effizienzsteigerung ist weniger bei den Spitzenleuten, dafür umso mehr bei den schwächeren Personen zu beobachten.

Ist das erhärtet?
In einem Versuch musste eine Gruppe Aufgaben ohne KI lösen und eine Vergleichsgruppe dieselben Aufgaben mit KI. Die Qualität der zweiten Gruppe war deutlich besser. Interessanterweise betrug die Leistungssteigerung der Spitzenleute nur 17 Prozent, während diejenige der schwächeren Teilnehmer bei 43 Prozent lag.

Wie erklärt sich dieser Unterschied?
Neben wir als Beispiel einen ausgezeichneten Programmierer. Wenn dieser KI um Hilfe bittet, werden ihm die Antworten möglicherweise nicht gefallen. Er ist schlicht besser als die KI, weil er Neues kreiert, das vom System in den Daten noch nicht gefunden werden kann. Das gilt auch für Texte: Wer qualifizierte Texte in gutem Stil schreibt, ist besser als KI. Deren Texte sind unoriginell, mainstreamig und oft langweilig, weil sie statistisch erzeugt werden.

Gemacht wird es trotzdem.
Ich merke das auch bei den Studentenarbeiten. Ich hatte einen Masterstudenten, mit dem ich spannende Diskussionen führte, weil er tolle Ideen hat. Dann zeigt er mir den Text für seine Masterarbeit – sauberes Englisch, aber furchtbar langweilig zu lesen. Er hat mit ChatGPT gearbeitet, weil er keine Fehler machen wollte. Ich sagte ihm, er solle selbst schreiben, so hätte ich die Authentizität und die guten Ideen. Dann kann ich mit den Rechtschreibfehlern leben.

Man könnte ja auch einen Text schreiben und von der KI korrigieren lassen.
Das ist nicht zuletzt für Legastheniker eine Chance. Und wenn man eine eher unorganisierte Person ist, kann man seine Gedanken hineinstreuen und das Sprachmodell ordnet sie. Man kann Texte auch inhaltlich prüfen lassen: Habe ich etwas Wesentliches vergessen?

«Je besser das ist, was man eingibt, umso besser werden die Antworten.»

Man lässt also nicht einfach das System machen, sondern tritt in einen Dialog mit der KI. Manche Leute haben dadurch einen enormen Effizienzzuwachs. Ich persönlich benutze die KI auch als Forschungsassistent und spiele ein bisschen Pingpong mit dem System. Dabei zeigt sich immer wieder: Die eigentliche Intelligenz sitzt vor dem Rechner. Je besser das ist, was man eingibt, umso besser werden die Antworten. Das System selbst basiert auf Statistik und hat darum eine Tendenz zur Mitte. Solche Antworten sind meistens langweilig.

Langweilig, aber korrekt?
Auch nicht unbedingt. Wenn ich das System beauftrage, eine Vorlesung für Data Science zu schreiben, dann ist die furchtbar langweilig und wahrscheinlich fünf Jahre veraltet. Weil ich bekomme, was das System am häufigsten gesehen hat. Wenn ich die interessanten Aspekte herauskitzeln will, dann muss ich im übertragenen Sinne in die dunklen Ecken des Verteilungsmodells gehen. Das schaffe ich nur, indem ich sehr viele kontextuelle Beschreibungen mache. Ich sage, die Vorlesung soll nur neue Themen umfassen, und ich hätte gern ein pädagogisches Konzept dazu.

Einem Sprachmodelle Zugriff auf meine eigenen Daten zu geben, ist vermutlich nicht so klug?
Das ist für viele Unternehmen momentan das zentrale Thema: Wie greift KI auf meine Unternehmensdaten zu? Wie bringe ich dem System bei, dass es meine Daten liest, aber alle Datenschutzrechte einhält und die Hierarchien respektiert, die wir im Zugriff haben? Viele KMU sind solche Fragen noch nicht angegangen, einige entwickeln immerhin Regeln, wie ihre Mitarbeiter KI einsetzen dürfen. Einzelne entwickeln nun aber Systeme, um ihre eigenen Unternehmensdaten besser analysieren zu können.

«Wir machen Dinge, die Google nicht bietet.»

In der Grundlagenforschung widmen Sie sich hochkomplexen Themen, sind solche praktischen Fragen für Sie auch interessant?
Neben der Grundlagenforschung machen wird auch angewandte Forschungen. Zusammen mit dem Innovationspark Ost und der IHK St.Gallen-Appenzell als Projektpartnern bauen wir ein System, das die Websites von Ostschweizer Unternehmen liest und extrahiert, welche Kompetenzen die Firmen haben. Die Kernidee ist, dass wir unstrukturierte Informationen, alle Arten von Texten, in strukturierte Informationen verwandeln und man dann Analysen machen kann. Die strukturierten Daten kann man auch mit anderen Daten verknüpfen. Das braucht nun etwas Engineering, wir müssen die Datenbank bauen, wir müssen die Suchmaschine bauen. Es ist ein Nischenmarkt, wir machen Google keine Konkurrenz. Aber wir machen Dinge, die Google nicht bietet.

Text: Philipp Landmark
Bilde: Marlies Beeler-Thurnheer

Newsletter