Alle Artikel von Hans Rudolf Straub

Künstliche und natürliche Intelligenz: Der Unterschied

Was ist wirkliche Intelligenz? 

Paradoxerweise hilft uns der Erfolg der künstlichen Intelligenz, essenzielle Bedingungen für die echte Intelligenz zu erkennen. Wenn wir nämlich akzeptieren, dass die künstliche Intelligenz an Grenzen stösst und im Vergleich zur echten klar erkennbare Mängel aufweist – und genau das haben wir ja in den Vorbeiträgen erkannt und beschrieben –, dann zeigen uns die Beschreibungen nicht nur, was bei der künstlichen Intelligenz fehlt, sondern auch, was die echte Intelligenz der künstlichen voraus hat. Wir lernen also etwas ganz Entscheidendes zum Thema natürliche Intelligenz.

Was haben wir erkannt? Was sind die essentiellen Unterschiede? Meines Erachtens sind es zwei Eigenschaften, durch die sich echte Intelligenz gegenüber künstlicher auszeichnet:

Die echte Intelligenz
– funktioniert auch in offenen Systemen,
– zeichnet sich durch eine bewusste Absicht aus.

Schach und Go sind geschlossene Systeme

Im Beitrag ‹Jassen und Schach› haben wir das Paradox untersucht, dass das Jass-Spiel für uns Menschen weniger Intelligenz zu erfordern scheint als Schach, für künstliche Intelligenz ist es aber genau umgekehrt. Im Schach und GO schlägt uns der Computer, beim Jassen hingegen haben wir durchaus eine Chance.

Weshalb ist das so? – Der Grund liegt in der Geschlossenheit des Schachspiels. Die Geschlossenheit bedeutet, dass nichts geschieht, was nicht vorgesehen ist. Alle Spielregeln sind klar definiert. Die Zahl der Felder und der Figuren, die Anfangspositionen und Spielmöglichkeiten der Figuren, wer wann zieht und wer wann warum gewonnen hat; all dies ist eindeutig festgesetzt. Und alle Regeln sind explizit; was nicht definiert ist, spielt keine Rolle: Wie der König ausschaut? Egal, wichtig ist nur, dass es einen König gibt und dass er für den Sieg matt zu setzen ist, im Notfall reicht, um den König zu symbolisieren, ein Papierfetzchen mit einem ‹K› darauf.

Solche geschlossenen Systeme können mathematisch klar beschrieben werden, und sie sind deterministisch. Natürlich braucht es Intelligenz, um zu siegen, doch diese Intelligenz kann völlig mechanisch sein, eben eine künstliche Intelligenz.

Mustererkennung: Offenes oder geschlossenes System?

Anders sieht es beim Typus Mustererkennung aus, wenn z.B. auf Bildern bestimmte Gegenstände und ihre Eigenschaften erkannt werden müssen. Hier ist das System im Prinzip offen, denn es können nicht nur Bilder mit ganz neuen Eigenschaften von aussen eingebracht werden, sondern auch die entscheidenden Eigenschaften, die erkannt werden müssen, können variieren. Die Situation ist also nicht so einfach, klar definiert und geschlossen wie bei Schach und GO. Ist das nun ein geschlossenes System?

Nein, ist es nicht. Während bei Schach die Spielregeln einen abschliessenden Grenzzaun um die Möglichkeiten und Ziele legen, muss ein solcher Sicherheitszaun aktiv um die Mustererkennung gelegt werden. Der Zweck ist, dabei die Vielfalt der Muster in einer klaren Verteilung zu organisieren. Das können nur Menschen. Sie bewerten den Lernkorpus, der möglichst viele Musterbeispiele erfasst, und jedes Beispiel wird von den Experten entsprechend der gewünschten Unterscheidung zugeordnet. Dieser bewertete Lernkorpus nimmt dann die Rolle der Spielregeln des Schachs ein und er bestimmt, wie ein neuer Input bewertet wird. Mit anderen Worten: Der bewertete Lernkorpus enthält das relevante Wissen, d.h. die Regeln, nach denen ein bisher unbekannter Input bewertet wird. Er entspricht dem Regelwerk des Schachs.

Das KI-System für eine Mustererkennung ist in diesem Sinn offen, wenn der Lernkorpus noch nicht einbezogen ist, mit dem bewerteten Korpus jedoch wird ein solches System ein geschlossenes. Genauso wie das Schachprogramm durch die Spielregeln klare Grenzen hat, bekommt auch die Mustererkennung ein klares Korsett, das letztlich das Outcome deterministisch definiert. Sobald die Bewertung erfolgt ist, kann eine rein mechanische Intelligenz das Verhalten innerhalb der getroffenen Grenzen optimieren – und dies letztlich in einem Perfektionsgrad, der mir als Mensch nie möglich sein wird.

Wer aber bestimmt den Inhalt des Lernkorpus, der das Mustererkennungsprogramm zu einem (technisch) geschlossenen System macht? Es sind immer menschliche Experten, die die Musterinputs bewerten. Der Mensch also macht die im Prinzip offene Aufgabe der Mustererkennung mittels des von ihm bewerteten Korpus zu einer geschlossenen Aufgabe, die ein mechanischer Algorithmus lösen kann.

In beiden Fällen – dem primär geschlossenen Spielprogramm (Schach und Go), wie auch dem sekundär geschlossenen Mustererkennungsprogramm – findet der Algorithmus eine geschlossene Situation vor; und das ist die Voraussetzung dafür, dass eine künstliche, d.h. mechanische Intelligenz überhaupt funktionieren kann.

Fazit 1:
Die KI-Algorithmen können nur in geschlossenen Räumen arbeiten.

Bei der Mustererkennung liefert der von Menschen geschaffene Lernkorpus diesen geschlossenen Raum.

Fazit 2:
Echte Intelligenz funktioniert auch in offenen Situationen.


Gibt es Intelligenz ohne Absicht?

Warum kann die künstliche Intelligenz im offenen Raum ohne Bewertungen von aussen nicht funktionieren? Weil die Bewertungen von aussen erst die Resultate der künstlichen Intelligenz ermöglichen. Und die Bewertungen können nicht mechanisch (algorithmisch) von der KI gegeben werden, sondern haben stets mit den An- und Absichten der Bewerter zu tun.

Neben der Unterscheidung zwischen offenen und geschlossenen Systemen, kann uns die Analyse von KI-Systemen somit noch mehr über die wirkliche Intelligenz zeigen. Künstliche und natürliche Intelligenz unterscheiden sich nämlich auch darin, wie weit bei ihnen für ihre Entscheidungen die jeweilige Absicht eine Rolle spielt.

Bei Schachprogrammen ist das Ziel klar, der gegnerische König soll schachmatt gesetzt werden. Das Ziel, das die Bewertung der Züge bestimmt, nämlich die Absicht zu siegen, muss nicht vom Programm selber mühsam erkannt werden, sondern ist von vornherein gegeben.

Auch bei der Mustererkennung ist die Rolle der Bewertungsabsicht entscheidend, denn welche Arten von Mustern sollen überhaupt unterschieden werden? Fremde Panzer versus eigene Panzer? Radpanzer versus Kettenpanzer? Funktionsfähige versus defekte? Alle diese Unterscheidungen machen Sinn, die KI muss aber anhand des Korpus auf ein bestimmtes Ziel, auf eine bestimmte Absicht eingestellt und justiert werden. Ist der Korpus einmal in einer bestimmten Richtung bewertet, kann nicht plötzlich ein anderes Merkmal daraus abgeleitet werden.

Wie beim Schachprogramm ist die künstliche Intelligenz nicht imstande, das Ziel selbständig herauszufinden, beim Schachprogramm versteht sich das Ziel (Schachmatt) von selber, bei der Mustererkennung müssen sich die beteiligten Bewerter über das Ziel (fremde/eigene, Rad-/Kettenpanzer) vorgängig einig sein. In beiden Fällen kommen Ziel und Absicht von aussen.

Natürliche Intelligenz hingegen kann sich selber darüber klar werden, was wichtig und was unwichtig ist und welche Ziele sie verfolgt. Die aktive Absicht ist m.E. eine unverzichtbare Eigenschaft der natürlichen Intelligenz und kann nicht künstlich konstruiert werden.

Fazit 3:
Im Gegensatz zur künstlichen zeichnet sich die natürliche Intelligenz dadurch aus, dass sie die eigenen Absichten beurteilen und bewusst ausrichten kann.


Dies ist ein Beitrag zum Thema künstliche Intelligenz. Weitere Beiträge finden Sie über die Übersichtsseite zum Thema KI.

Die Drei-Welten-Theorie (Roger Penrose)

Die drei Welten

Es gibt praktische Fragen, die mit unseren konkreten Leben zu tun haben, und theoretische Fragen, die damit scheinbar nichts zu tun haben. Es gibt aber auch theoretische Überlegungen, die durchaus mit unserem praktischen Alltag zu tun haben. Eine davon ist die Drei-Welten-Theorie, die sich damit beschäftigt, in welchen Welten wir konkret leben.

Auf welchem Grund steht unsere ganz alltägliche Existenz? Die Drei-Welten-Theorie weist darauf hin, dass wir uns gleichzeitig in drei grundverschiedenen Welten bewegen. Praktisch stellt das für uns kein Problem dar, theoretisch hingegen stellt sich die Frage, wie drei so verschiedene Welten sich denn in der Realität überhaupt begegnen können.

Bei Roger Penrose heissen die drei Welten:
A) Platonic World
B) Physical World
C) Mental World

Hier ist die originale Darstellung von Roger Penrose:

Platonic World: Die Welt der Ideen. Mathematik z.B. befindet sich gänzlich in der platonischen Welt.

Physical World: Die reale, physische Welt mit Dingen, die zu einem bestimmten Zeitpunkt an einen bestimmten Ort sind.

Mental World: Meine subjektiven Wahrnehmungen, die mich die anderen Welten erst erkennen lassen. Aber auch meine Gedanken und Vorstellungen, so wie ich sie erlebe.

Das Kreisverhältnis zwischen den drei Welten

Die Pfeile zwischen den Kugeln deuten das Kreisverhältnis an, das diese Welten nach Penrose miteinander eingehen:

Platonic → Physical: Hinter der Physik steckt Mathematik. Physik ist ohne höhere Mathematik undenkbar. Offensichtlich hält sich die physikalische Welt sehr genau an mathematische Gesetze. Wird die Realwelt also von der Mathematik bestimmt?

Physical → Mental: Mein Hirn ist ein Gegenstand der physikalischen Welt. Nach gängiger Vorstellung bestimmen die Neuronen des Hirngewebes mit ihren elektrischen Schaltungen meine Hirnleistungen.

Mental → Platonic: Grosse Denker sind in der Lage, in Gedanken (Mental World) die Gesetze der Mathematik zu formulieren, sie ‹entstehen› in ihrem Kopf.

Das ist also der Kreisprozess:
Die platonische Welt (Mathematik) bestimmt die physikalische. Diese ist die Basis für das menschliche Denken. Im menschliche Denken wiederum haben Mathematik (und andere Ideen) ihren Platz. Die mathematischen Gesetze … hier schliesst sich der Kreis.

Mächtigkeiten der drei Welten

Interessant sind auch die sich öffnenden Trichter in Penrose’s Skizze, die zusammen mit den Pfeilen von einer Welt zur nächsten weisen. Penrose deutet damit an, dass die im Kreisprozess folgende Welt nur einen Teil der Welt benötigt, aus der sie während des Generierungsprozesses entsteht.

Platonic → Physical: Nur ein kleiner Teil der mathematischen Erkenntnisse kann in der Physik verwendet werden. So gesehen brauchen (sind?) die physikalischen Gesetze nur einen Ausschnitt aus der Mathematik.

Physical → Mental: Mein Hirn ist ein sehr kleiner Teil der physikalischen Welt.

Mental → Platonic: Mein Hirn beschäftigt sich mit vielem; Mathematik und abstrakte Ideen sind nur ein Teil davon.

Die Platonische Welt ist dann wieder Ursprung für die physische Welt. Die Grössenverhältnisse scheinen dabei aber nicht richtig aufzugehen. Das gleicht der berühmten ewigen Treppe:

Die ewige Treppe

Nebenbemerkung:
Die ewige Treppe wurde  von Roger Penrose’s Vater, Lionel Penrose enteckt und wird auch Penrose-Treppe genannt  – bzw. Escher-Penrose-Treppe nach dem holländischen Grafiker, der u.a. Douglas Hofstadter zu seinem Buch ‹Gödel, Escher, Bach› inspiriert hat. Die Endlosigkeit, mit der die Treppe steigt, ist grafisch scheinbar mühelos darstellbar, logisch jedoch höchst verzwickt (selbstreferenzielles Tabu).

Für Penrose liegt ein Geheimnis in den drei Welten. Er schreibt:

«Zweifellos gibt es in Wirklichkeit nicht drei Welten, sondern nur eine, und das wahre Wesen dieser Welt können wir gegenwärtig nicht einmal erahnen.»

Es geht also um drei Welten in einer – und somit um ihre Unterschiede und die Art ihrer Verschränkung.

Keine abstrakte Theorie

Die drei Welten sind keine abstrakte Theorie, sondern lassen sich in unserer eigenen privaten Erlebniswelt erkennen. Sie spielen z.B. in der Musik eine wichtige Rolle. Am Beispiel der Musik kann man auch erkennen, wie die drei Welten zusammenwirken. Mehr dazu später auf dieser Website (siehe Übersichtseite zur Drei-Welten-Theorie).

Nachtrag im Oktober 2020:

Ich habe diesen Beitrag einen Monat vor der Bekanntgabe, dass Sir Roger Penrose den Nobelpreis bekommt, geschrieben. Ich freue mich sehr, dass dieser geniale Wissenschaftler den Preis bekommt.


Dies ist der Startbeitrag zum Thema Musikalische Tonleitern und Drei-Welten-Theorie.

Wo in der künstlichen Intelligenz steckt nun die Intelligenz?

Ganz kurz: Die Intelligenz steckt immer ausserhalb.

a) Regelbasierte Systeme

Die Regeln und Algorithmen dieser Systeme – Typ A1 und A2 – werden von Menschen erstellt und niemand wird einem Taschenrechner wirkliche Intelligenz zubilligen. Das Gleiche gilt auch für alle anderen, noch so raffinierten regelbasierten Systeme. Die Regeln werden von Menschen gebaut.

b) Konventionelle korpusbasierte Systeme (Mustererkennung)

Diese Systeme (Typ B1) verwenden immer einen bewerteten Korpus, also eine Datensammlung, die bereits bewertet worden ist  (Details). Die Bewertung entscheidet, nach welchen Zielen jeder einzelne Korpuseintrag klassifiziert wird und die Klassifizierung stellt dann das wirkliche Wissen im Korpus dar.

Die Klassierung ist aber nicht aus den Daten des Korpus selber ableitbar, sondern erfolgt immer von ausserhalb. Und nicht nur die Zuweisung eines Dateneintrags zu einer Klasse ist nur von aussen durchführbar, auch die Klassen selber sind nicht durch die Daten des Korpus determiniert, sondern werden von aussen – letztlich von Menschen – vorgegeben.

Die Intelligenz bei diesen Systemen steckt immer in der Bewertung des Datenpools, d.h. der Zuteilung der Datenobjekte zu vorgegebenen Klassen, und diese erfolgt von aussen durch Menschen. Das neuronale Netz, das dabei entsteht, weiss nicht, wie das menschliche Hirn die dafür nötigen Bewertungen gefunden hat.

c) Suchmaschinen

Diese (Typ B2) stellen einen Sonderfall der korpusbasierten Systeme dar und basieren auf der Tatsache, dass viele Menschen eine bestimmte Suchmaschinen benützen und mit ihren Klicks entscheiden, welche Internetlinks den Suchbegriffen zugeordnet werden können. Die Suchmaschinen mitteln am Ende nur, welche Spuren die vielen Benutzer mit ihrem eigenen Kontextwissen und ihren jeweiligen Absichten gelegt haben. Ohne die menschlichen Gehirne der bisherigen Suchmaschinenbenutzer wüssten die Suchmaschinen nicht, wohin sie zeigen sollten.

d) Spielprogramme (Schach, Go, usw.) / Deep Learning

Hier wird es interessant, denn diese Programme (Typ B3) brauchen im Gegensatz zu den anderen korpusbasierten Systemen keinen Menschen, der von aussen den Korpus (bestehend aus den Zügen bereits gespielter Partien) beurteilt. Verfügen diese Systeme also über eine eigenständige Intelligenz?

Wie die Programme zur Mustererkennung (b) und die Suchmaschinen (c) verfügt das Go-Programm über einen Korpus, der in diesem Fall die Züge der gespielten Testpartien enthält. Der Unterschied zu klassischen KI-Systemen besteht nun darin, dass die Bewertung des Korpus (d.h. der Spielzüge) bereits durch den Spielerfolg in der betreffenden Partie definiert ist. Es braucht also keinen Menschen, der fremde von eigenen Panzern unterscheiden muss und dadurch die Vorlage für das neuronale Netz liefert. Der Spielerfolg kann von der Maschine, d.h. dem Algorithmus, selber direkt erkannt werden, ein Mensch ist dafür nicht nötig.

Bei klassischen KI-Systemen ist dies nicht der Fall, und es braucht unbedingt einen Menschen, der die einzelnen Korpuseinträge bewertet. Dazu kommt, dass das Kriterium der Bewertung nicht wie bei Go eindeutig gegeben ist. Panzerbilder können z.B. ganz unterschiedlich kategorisiert werden (Radpanzer/Kettenpanzer, beschädigte/unbeschädigte Panzer, Panzer in Städten/Feldern, auf Farbbildern/Schwarzweiss-Bildern etc.). Dies öffnet die Interpretationsmöglichkeiten für die Bewertung beliebig. Eine automatische Zuweisung ist aus all diesen Gründen bei klassischen KI-System nicht möglich, und es braucht immer die Bewertung des Lernkorpus durch menschliche Experten.

Bei Schach und Go ist dies gerade nicht nötig. Denn Schach und Go sind künstlich konstruierte und völlig geschlossene Systeme und deshalb in der Tat von vornherein vollständig determiniert. Das Spielfeld, die Spielregeln und das Spielziel – und damit auch die Bewertung der einzelnen Züge – sind automatisch gegeben. Deshalb braucht es keine zusätzliche Intelligenz, sondern ein Automatismus kann innerhalb des vorgegebenen, geschlossenen Settings Testpartien mit sich selber spielen und das vorgegebene Ziel so immer besser erreichen, bis er besser ist als jeder Mensch.

Bei Aufgaben, die sich nicht in einem künstlichen Spielraum, sondern in der Realität stellen, sind die erlaubten Züge und die Ziele aber nicht vollständig definiert und der Strategie-Raum bleibt offen. Eine Automatik wie Deep Learning ist in offenen, d.h. realen Situationen nicht anwendbar.

In der Praxis braucht es selbstverständlich eine beträchtliche Intelligenz, um den Sieg in Go und anderen Spielen zu programmieren und wir dürfen die Intelligenz der Ingenieuren von Google durchaus dafür bewundern, doch ist es eben wieder ihre menschliche Intelligenz, die sie die Programme entwickeln lässt, und nicht eine Intelligenz, die die von ihnen konstruierten Programme selbständig entwickeln könnten.

Fazit

KI-Systeme können sehr eindrücklich und sehr nützlich sein, sie verfügen aber nie über eigene Intelligenz.


Dies ist ein Beitrag zum Thema künstliche Intelligenz.

Übersicht über die KI-Systeme

Alle bis jetzt untersuchten Systeme, inkl. Deep Learning, lassen sich in ihrem Kern auf zwei Methoden zurückführen, die regel- und die korpusbasierte. Dies gilt auch für die bisher nicht besprochenen Systeme, nämlich den einfachen Automaten und die hybriden Systeme. Letztere kombinieren die beiden Herangehensweisen.

Wenn wir diese Varianten integrieren, gelangen wir zur folgenden Übersicht:

A: Regelbasierte Systeme

Regelbasierte Systeme basieren auf Rechenregeln. Bei diesen Regeln handelt es sich immer um ‹IF-THEN› Befehle, also um Anweisungen, die einem bestimmten Input ein bestimmtes Ergebnis zuweisen. Diese Systeme sind immer deterministisch, d.h. ein bestimmter Input führt immer zum gleichen Resultat. Ebenfalls sind diese Systeme immer explizit, d.h. es gibt keine Vorgänge, die nicht sichtbar gemacht werden können und das System ist – mindestens im Prinzip – immer vollständig durchschaubar. Regelbasierte Systeme können allerdings recht komplex werden.

A1: Einfacher Automat (Typ Taschenrechner)
Einfacher Automat
Abb. 1: Einfacher Automat

Regeln werden auch als Algorithmen («Algo» in Abb. 1) bezeichnet. Selbstverständlich können mit einfachen Automaten auch sehr komplexe Berechnungen durchgeführt werden und Input und Output (Resultat) müssen nicht Zahlen sein. Der einfache Automat zeichnet sich vor den anderen Systemen dadurch aus, dass er keine spezielle Wissensbasis und keinen Korpus braucht, sondern mit wenigen Rechenregeln auskommt.

Vielleicht würden Sie den Taschenrechner nicht als KI-System bezeichnen, doch die Unterschiede zu den höher entwickelten Systemen bis hin zum Deep Learning sind nur gradueller Natur – bzw. von genau der Art, wie sie hier auf dieser Seite beschrieben werden. Komplexe Rechenleistungen erscheinen uns schnell einmal als intelligent, besonders dann, wenn wir sie mit unseren menschlichen Gehirnen nicht so einfach nachvollziehen können. Das gilt bereits für einfache Rechenoperationen wie Divisionen und Wurzelziehen, bei denen wir schnell an unsere Grenzen stossen. Gesichtserkennung erscheint uns hingegen vergleichsweise einfach, weil wir das meist auch ohne Computer ganz gut können. Übrigens gehört Mühlespielen auch in die Kategorie A1, es braucht zwar eine gewisse Intelligenz, um es zu spielen, aber es ist vollständig und einfach mit einem KI-Programm vom Typ A1 beherrschbar.

A2: Wissensbasiertes System
Erstellen Wissensbasis
Abb. 2: Erstellen einer Wissensbasis

Diese Systeme unterscheiden sich von einfachen Automaten dadurch, dass ein Teil ihrer Regeln in einer Wissensbasis ausgelagert ist. Abb. 2 weist darauf hin, dass diese Wissensbasis von einem Menschen aufgebaut wird; Abb. 3 zeigt, wie sie angewendet wird. Die Intelligenz steckt in den Regeln, sie kommt vom Menschen – bei der Anwendung reicht dann die Wissensbasis allein.

Anwenden eines wissensbasierten Systems
Abb. 3: Anwenden eines wissensbasierten Systems

Die Inferenzmaschine («IM» in Abb. 2 und 3) entspricht den Algorithmen der einfachen Automaten in Abb. 1. Im Prinzip handelt es sich bei den Algorithmen, der Inferenzmaschine und den Regeln der Wissensbasen immer um Regeln, also um explizite ‹IF-THEN›- Anweisungen. Diese können allerdings unterschiedlich komplex verwoben und verschachtelt sein. Sie können sich auf Zahlen oder auf Begriffe beziehen.

Die Regeln in der Wissensbasis sind nun den Regeln der Inferenzmaschine untergeordnet. Letztere kontrollieren den Fluss der Interpretation, d.h. sie entscheiden, welche Regeln der Wissensbasis anzuwenden und wie sie auszuführen sind. Die Regeln der Inferenzmaschine sind das eigentliche Programm, das vom Computer gelesen und ausgeführt wird. Die Regeln der Wissensbasis hingegen werden vom Computer nicht direkt, sondern indirekt über die Anweisungen der Inferenzmaschine ausgeführt. Es handelt sich also um eine Verschachtelung – wie sie im Übrigen typisch für die Befehle (Software) in einem Computer sind. Auch die Regeln der Inferenzmaschine werden ja nicht direkt ausgeführt, sondern von tieferen Regeln gelesen, bis hinunter zur Maschinensprache im Kern (Kernel) des Rechners. Im Prinzip sind aber die Regeln der Wissensbasis genauso Rechenregeln wie die Regeln der Inferenzmaschine, nur eben in einer ‹höheren› Programmiersprache. Diese zeichnet sich vorteilhafterweise dadurch aus, dass sie für die Domain-Experten, d.h. für die menschlichen Fachexperten, besonders einfach und sicher les- und handhabbar ist.

Bezüglich des in der Inferenzmaschine verwendeten Logiksystems unterscheiden wir regelbasierte Systeme

– mit statischer Logik (Typ Ontologien / Semantic Web),
– mit dynamischer Logik (Typ Begriffsmoleküle).

Siehe dazu den Beitrag ‹Die drei Neuerung der regelbasierte KI›.

B: Korpusbasierte Systeme

Korpusbasierte Systeme werden in drei Schritten erstellt (Abb. 4). Im ersten Schritt wird ein möglichst grosser Korpus gesammelt. Die Sammlung enthält keine Regeln, sondern Daten. Regeln wären Anweisungen, die Daten des Korpus hingegen sind keine Anweisungen; es handelt sich um reine Datensammlungen, Texte, Bilder, Spielverläufe, etc.

Erstellen eines korpusbasierten Systems
Abb. 4: Erstellen eines korpusbasierten Systems

Diese Daten müssen nun – im zweiten Schritt – bewertet werden. In der Regel macht das ein Mensch.

Im dritten Schritt wird ein sogenanntes neuronales Netz auf Basis des bewerteten Korpus trainiert. Das neuronale Netz ist im Gegensatz zum Datenkorpus wieder eine Regelsammlung, wie es die Wissensbasis der regelbasierten Systeme (Typ A) ist. Im Unterschied zu diesen wird das neuronale Netz aber nicht von einem Menschen trainiert, sondern vom bewerteten Korpus. Das neuronale Netz ist – im Gegensatz zur Wissensbasis – nicht explizit, d.h. nicht so ohne Weiteres einsehbar.

Anwenden eines korpusbasierten Systems
Abb. 5: Anwenden eines korpusbasierten Systems

Bei der Anwendung kommt das neuronale Netz wie das regelbasierte nun ganz ohne Menschen aus. Es braucht nicht einmal mehr den Korpus. Alles Wissen steckt in den Algorithmen des neuronalen Netzes. Zudem ist das neuronale Netz durchaus in der Lage, auch schlecht strukturierten Inhalt, z.B. Pixelhaufen (Bilder) zu interpretieren, bei denen regelbasierte Systeme (Typ B) ganz schnell an ihre Grenzen stossen. Im Gegensatz zu diesen sind die korpusbasierten Systeme aber weniger erfolgreich, was komplexen Output betrifft, d.h. die Zahl der möglichen Output-Resultate darf nicht zu gross sein, da sonst die Trefferschärfe des Systems leidet. Am besten geeignet sind binäre Outputs vom Typ ‹eigener/fremder Panzer› (siehe Vorbeitrag) oder ‹männlicher/weiblicher Autor› bei der Bewertung von Twitter-Texten.

Drei Untertypen der korpusbasierten KI

Die drei Untertypen unterscheiden sich dadurch, wer die Bewertung des Korpus durchführt.

Die drei Typen der korpusbasierten Systeme

Abb. 6: Die drei Typen der korpusbasierten Systeme

B1: Typ Mustererkennung

Diesen Typ (oberes System in Abb. 6) habe ich im «Panzerbeispiel» beschrieben. Die Bewertung des Korpus erfolgt dabei durch einen menschlichen Experten.

B2: Typ Suchmaschine

Siehe mittleres Schema in Abb. 6. Bei diesem Typ erfolgt die Bewertung des Korpus durch die Kunden. Ein solches System ist im Beitrag Suchmaschine beschrieben.

B3: Typ Deep Learning

Bei diesem Typ (unterstes System in Abb. 6) ist im Gegensatz zu den oberen kein Mensch nötig, um das neuronale Netz zu bewerten. Die Bewertung ergibt sich allein durch den Spielverlauf. Dass Deep Learning aber nur unter sehr restriktiven Bedingungen möglich ist, wird im Beitrag Spiele und Intelligenz erläutert.

C: Hybride Systeme

Selbstverständlich können die oben genannten Methoden (A1 und A2, B1 bis B3) in der Praxis auch verbunden werden.

So kann z.B. ein System zur Gesichtsidentifikation so funktionieren, dass ein korpusbasiertes System des Typs B1 in den Bildern einer Überwachungskamera Gesichter als solche erkennt und in den Gesichtern die entscheidenden Formen von Augen, Mund usw. Anschliessend errechnet ein regelbasiertes System des Typs A2 aus den von System  B1 markierten Punkten die Grössenverhältnisse von Augen, Nasen, Mund etc., die ein individuelles Gesicht auszeichnen. Durch eine solche Kombination von korpus- und regelbasiertem System können auf den Bildern individuelle Gesichter erkannt werden. Der erste Schritt wäre für ein System A2 nicht möglich, der zweite Schritt für ein System B1 viel zu kompliziert und ungenau. Ein Hybrid macht es möglich.


Im Folgebeitrag beantworte ich die Frage, wo in all diesen Systemen nun die Intelligenz steckt. Aber vermutlich haben Sie die Antwort längst selbst erkannt.


Dies ist ein Beitrag zum Thema künstliche Intelligenz.

Spiele und Intelligenz (2): Deep Learning

Go und Schach

Das asiatische Go-Spiel hat viele Ähnlichkeiten mit Schach und ist dabei gleichzeitig einfacher und raffinierter. Das heisst:

Gleich wie Schach:
– Brettspiel → klar definiertes Spielfeld
– Zwei Spieler (mehr würde die Komplexität sofort erhöhen)
– Eindeutig definierte Spielmöglichkeiten der Figuren (klare Regeln)
– Die Spieler ziehen abwechselnd (klare Zeitschiene)
– Keine versteckten Informationen (wie etwa beim Jassen)
Klares Ziel (Wer am Schluss das grössere Gebiet besetzt, gewinnt)

Bei Go einfacher:
– Nur ein Typus Spielfigur/Steine (Bei Schach: König, Dame, etc.)

Bei Go komplexer/aufwendiger:
– Go hat das leicht grössere Spielfeld.
– Die grössere Anzahl Felder und Steine führt zu etwas mehr Rechenaufwand.
– Trotz sehr einfachen Grundelementen hat Go eine ausgesprochen raffinierte Spielanlage.

Zusammenfassung

Die Unterschiede zwischen Go und Schach sind verglichen mit den Gemeinsamkeiten minimal. Insbesondere sind auch für Go die stark einschränkenden Vorbedingungen a) bis d)  erfüllt, die es einem Algorithmus erlauben, die Aufgabe in Angriff zu nehmen:

a) klar definiertes Spielfeld
b) klar definierte Spielregeln
c) klar definierter Spielablauf
d) klares Spielziel

(siehe auch Vorbeitrag)

Go und Deep Learning

Google hat die besten menschlichen Go-Spieler besiegt. Der Sieg wurde durch einen Typus KI erreicht, der als Deep Learning bezeichnet wird. Manche Leute denken, dass damit sei bewiesen, dass ein Computer – d.h. eine Maschine – wirklich intelligent sein könne. Schauen wir deshalb genauer, wie Google das angestellt hat.

Regel- oder korpusbasiert – oder ein neues, drittes System?

Die Strategien der bekannten KI-Programme sind entweder regel- oder korpusbasiert. In den Vorbeiträgen haben wir uns gefragt, wo die Intelligenz bei diesen beiden Strategien herkommt und wir haben gesehen, dass die Intelligenz bei der regelbasierten KI von menschlichen Experten in das System hinein gegeben wird, indem sie die Regeln bauen. Bei der korpusbasierten KI sind ebenfalls Menschen nötig, denn alle Einträge in den Korpus müssen eine Bewertung (z.B. eigener/fremder Panzer) bekommen, und diese Bewertung lässt sich immer auf Menschen zurückführen, auch wenn das nicht immer sofort ersichtlich ist.

Wie aber sieht das nun bei Deep Learning aus? Offensichtlich sind hier keine Menschen mehr nötig, um konkrete Bewertungen – bei Go bezüglich der Siegeschancen der Spielzüge – abzugeben, sondern es reicht, dass das Programm gegen sich selber spielt und dabei selbstständig herausfindet, welche Züge die erfolgreichsten waren. Dabei ist Deep Learning NICHT auf menschliche Intelligenz angewiesen und erweist sich – bei Schach und Go – sogar der menschlichen Intelligenz überlegen. Wie funktioniert das?

Deep Learning ist korpusbasiert

Zweifellos haben die Ingenieure von Google einen phantastischen Job gemacht. Während bei konventionellen korpusbasierten Anwendungen die Daten des Korpus mühsam zusammengesucht werden müssen, ist das beim Go-Programm ganz einfach: Die Ingenieure lassen den Computer einfach gegen sich selber spielen und jedes Spiel ist ein Eintrag im Korpus. Es müssen nicht mehr mühsam Daten im Internet oder anderswo gesucht werden, sondern der Computer kann den Korpus sehr einfach und schnell in beliebiger Grösse selber generieren. Das Deep Learning für Go bleibt zwar wie die Programme zu Mustererkennung weiterhin auf einen Korpus angewiesen, doch dieser lässt sich sehr viel einfacher – und vor allem automatisch – zusammenstellen.

Doch es kommt für das Deep Learning noch besser: Neben der einfacheren Erstellung des Korpus gibt es einen weiteren Vorteil: Es braucht überhaupt keine menschlichen Experten mehr, um unter den vielen zu einem bestimmten Zeitpunkt möglichen Spielzügen den besten herauszufinden. Wie funktioniert das? Wie kann Deep Learning ganz ohne menschliche Intelligenz intelligente Schlüsse ziehen? Das ist schon erstaunlich. Bei näherem Hinsehen wird aber klar, weshalb das in der Tat so ist.

Die Bewertung der Korpuseinträge

Der Unterschied liegt in der Bewertung der Korpuseinträge. Sehen wir dazu noch einmal unser Panzerbeispiel an. Sein Korpus besteht aus Bildern von Panzern, und ein menschlicher Experte muss jedes Bild danach beurteilen, ob es einen eigenen oder fremden Panzer darstellt. Dazu braucht es – wie dargestellt – menschliche Experten. Auch bei unserem zweiten Beispiel, der Suchmaschine, beurteilen menschliche Anwender, nämlich die Kunden, ob der im Korpus vorgeschlagene Link auf eine Website zum eingegebenen Suchausdruck passt. Beide Arten von KI kommen nicht ohne menschliche Intelligenz aus.

Bei Deep Learning ist das jedoch wirklich anders. Hier braucht es keine zusätzliche Intelligenz, um den Korpus, d.h. die einzelnen Züge der vielen Spielverläufe, die bei den Go-Testspielen entstehen, zu bewerten. Die Bewertung ergibt sich automatisch aus dem Spiel selber, denn es kommt nur darauf an, ob das Spiel gewonnen wird oder nicht. Das weiss der Korpus aber selber, da er ja den ganzen Spielverlauf bis zum Schluss hin registriert hat. Jeder Spielverlauf im Korpus hat somit seine Bewertung automatisch mit dabei – eine Bewertung durch Menschen erübrigt sich.

Natürliche Grenzen des Deep Learning

Durch das oben Gesagte lassen sich aber auch die Bedingungen erkennen, unter denen Deep Learning überhaupt möglich ist: Damit Spielverlauf und Bewertung klar sind, dürfen keine Überraschungen auftreten. Mehrdeutige Situationen und unkontrollierbare Einflüsse von aussen sind verboten. Damit alles fehlerfrei kalkulierbar bleibt, braucht es zwingend:

1. Ein geschlossenes System

Dies ist durch die Eigenschaften a) bis c) (siehe Vorbeitrag) gegeben, die Spiele wie Schach und Go aufweisen, nämlich:

a) klar definiertes Spielfeld,
b) klar definierte Spielregeln,
c) klar definierter Spielablauf.

Ein geschlossenes System ist nötig, damit Deep Learning funktionieren kann. Ein solches kann nur ein konstruiertes sein, denn in der Natur gibt es keine geschlossenen Systeme. Es ist kein Zufall, dass Schach und Go sich für die KI besonders eignen, da Spiele immer diesen Aspekt des bewusst Konstruierten haben. Schon Spiele, die den Zufall mit integrieren, wie das Jassen im Vorbeitrag, sind keine absolut geschlossenen Systeme mehr und deshalb für eine künstliche Intelligenz weniger geeignet.

2. Ein klar definiertes Ziel

Auch das klar definierte Ziel – Punkt d) im Vorbeitrag – ist nötig, damit die Bewertung des Korpus ohne menschlichen Eingriff stattfinden kann. Das Ziel des untersuchten Vorgangs und die Bewertung der Korpuseinträge hängen nämlich eng zusammen. Wir müssen verstehen, dass das Ziel der Auswertung des Korpus nicht durch die Daten des Korpus gegeben ist. Daten und Auswertung sind zwei verschiedene Dinge, und die Auswertung der Daten hängt vom Ziel ab. Wir haben diesen Aspekt bereits im Beispiel mit den Panzern diskutiert.

Dort sahen wir, dass ein Korpuseintrag, d.h. die Pixel eines Panzerbilds, nicht automatisch seine Bewertung (fremd/eigen) enthält. Die Bewertung ist eine Information, die nicht in den einzelnen Daten (Pixeln) des Bildes enthalten ist, vielmehr muss sie von aussen (durch eine interpretierende Intelligenz) in den Korpus hinein gegeben  werden. Der gleiche Korpuseintrag kann deshalb sehr unterschiedlich bewertet werden:  Wenn dem Korpus mitgeteilt wird, ob es sich beim jeweiligen Bild um einen eigenen oder einen fremden Panzer handelt, ist damit noch nicht bekannt, ob es ein Raupen- oder ein Radpanzer ist. Die Bewertung kann bei allen solchen Bildern in ganz unterschiedliche Richtungen gehen. Beim Schachspiel und bei Go hingegen ist das anders. Dort wird ein Zug im Spielverlauf (der im Korpus bekannt ist) allein danach bewertet, ob er dem Spielsieg dienlich ist.

Bei Schach und Go gibt es somit ein einfaches, klar definiertes Ziel. Bei Panzerbildern hingegen sind im Gegensatz zu Schach und Go ganz unterschiedliche Beurteilungsziele möglich. Das ist typisch für reale Situationen. Reale Situationen sind immer offen und in ihnen sind unterschiedliche Beurteilungen je nach Situation absolut normal und sinnvoll. Eine Instanz (Intelligenz) ausserhalb der Daten muss zwecks Beurteilung der Daten den Bezug zwischen den Daten und dem Beurteilungsziel herstellen. Diese Aufgabe ist immer an eine Instanz mit einer bestimmten Absicht gebunden.

Der maschinellen Intelligenz fehlt jedoch diese Absicht und sie ist deshalb darauf angewiesen, dass ihr das Ziel von aussen vorgegeben wird. Wenn das Ziel nun so selbstevident ist wie bei Schach und Go, ist das kein Problem und die Bewertung des Korpus kann in der Tat ohne menschliche Intelligenz von der Maschine selbstständig durchgeführt werden. In solchen eindeutigen Situationen kann maschinelles Deep Learning wirklich funktionieren und die menschliche Intelligenz sogar schlagen.

Das trifft aber nur zu, wenn die Spielregeln und das Spielziel klar definiert sind. In allen anderen Fällen braucht es keinen Algorithmus, sondern eine ‹echte›, d.h. eine absichtsvolle Intelligenz.

Fazit

  1. Deep Learning (DL) funktioniert.
  2. DL verwendet ein korpusbasiertes System.
  3. DL kann die menschliche Intelligenz bei gewissen Aufgaben schlagen.
  4. DL funktioniert aber nur in einem geschlossenen System.
  5. DL funktioniert nur dann, wenn das Ziel klar und eindeutig ist.

Ad 4) Geschlossene Systeme sind nicht real, sondern entweder offensichtliche Konstrukte (wie Spiele) oder Idealisierungen von realen Verhältnissen (= Modelle). Solche Idealisierungen sind immer Vereinfachungen im Sinn der Interpretationstheorie und beinhalten eine Informationsreduktion. Sie können deshalb die Realität nicht vollständig abbilden.

Ad 5) Das Ziel, d.h. die ‹Absicht› entspricht einem subjektiven Moment. Dieses subjektive Moment unterscheidet die natürliche von der maschinellen Intelligenz. Der Maschine muss es vorgegeben werden.


Wie wir gesehen haben, lohnt es sich, verschiedene Formen von KI zu unterscheiden und ihre Funktionsweise genauer anzusehen. So werden die Stärken und Schwächen dieser neuen Technologien, die auch die heutige Welt entscheidend mitbestimmen, klarer sichtbar.

Im nächsten Beitrag bringen wir basierend auf den bisherigen Erkenntnissen eine Zusammenstellung der verschiedenen KI-Systeme.


Dies ist ein Beitrag zum Thema Künstliche Intelligenz.

Spiele und Intelligenz (1): Jassen und Schach

Schach oder Jassen, was erfordert mehr Intelligenz?

Jassen ist ein Schweizer Kartenspiel, verwandt mit Bridge, wenn auch etwas hemdsärmliger.

Allgemein wird angenommen, dass Schach mehr Intelligenz verlangt, denn offensichtlich haben weniger intelligente Spieler beim Jassen durchaus eine Chance, beim Schach hingegen nicht. Wenn wir uns überlegen, was ein Computerprogramm können muss, um zu siegen, sieht das Bild aber schnell anders aus: Schach ist für eine Maschine eindeutig einfacher.

Das überrascht Sie vielleicht, aber es lohnt sich, die Gemeinsamkeiten der beiden Spiele, aber auch die Unterschiede genauer anzusehen – und natürlich hat beides viel mit unserem Thema Künstliche Intelligenz zu tun.

Gemeinsamkeiten

a) Klares Spielfeld

Das Schachbrett hat 64 schwarze und weisse Felder. Nur die Figuren, die sich auf diesen Feldern befinden, spielen eine Rolle. Beim Jassen könnte man den sogenannten Jassteppich als Spielfeld bezeichnen. Dieser ist das materielle Spielfeld, so wie das materielle Schachbrett das Spielfeld fürs Schach ist. Wenn wir uns für das siegreiche Spielverhalten interessieren, spielen die Farbe des Jassteppichs und die materielle Beschaffenheit des Schachbretts jedoch keine Rolle, sondern es kommt nur auf das abstrakte, d.h. das ‹informatische› Spielfeld an: Wo können sich unsere Schachfiguren und Spielkarten bewegen? Und diesbezüglich ist die Situation auch beim Jassen völlig klar. Die Karten sind zu jedem Zeitpunkt an einem klar definierten Ort, entweder bei einem bestimmten Spieler bereit zum Ausspielen, bei einem bestimmten Spieler bereits eingesteckt als seine ‹Beute› oder auf dem Jassteppich als offene und für jeden sichtbare Karte. Sowohl beim Schach wie beim Jassen können wir von einem klar definierten Spielfeld ausgehen.

b) Klare Spielregeln

Auch hier gibt es zwischen den beiden Spielen kaum einen Unterschied. Zwar variieren in der Schweiz die Jassregeln von Dorf zu Dorf und von ‹Beiz› zu ‹Beiz› und ein diesbezüglicher Dissens kann zu heftigen Diskussionen führen, doch sobald man sich auf ein Set an Regeln geeinigt hat, ist die Situation klar. Wie beim Schach ist eindeutig, was geht und was nicht, und die möglichen Aktivitäten der Spieler sind eindeutig definiert.

c) Klarer Spielverlauf (Zeitverlauf)

Auch hier unterscheiden sich die beiden Spiele nicht. Zu jedem Zeitpunkt gibt es genau einen Akteur, der handeln darf und seine Handlungsmöglichkeiten sind klar definiert.

d) Klares Spielziel

Beim Schach geht es darum, den gegnerischen König matt zu setzen, ein ganz eindeutiges, klar definiertes Ziel. Beim Jassen entscheidet die Punkte- oder Stichzahl, je nach Variante. Jedes Spiel hat ein klar definiertes Ende. Beim Jassen wird nach neun Stichen gezählt, beim Schach verhindern Remis- und Patt-Regeln, dass ein Spiel nicht beendet werden kann. Es gibt immer einen klaren Sieger und klare Verlierer, notfalls ein definitives Unentschieden.

Unterschiede

e) Eindeutige Ausgangssituation?

Beim Schach ist die Ausgangslage bei jedem Spiel identisch, alle Figuren haben ihren angestammten Platz. Beim Jassen hingegen wird vor jedem Spiel gemischt. Während wir beim Schach somit immer die gleiche Ausgangslage vorfinden, müssen wir uns beim Jassen auf eine immer neue einstellen. Der Zufall spielt somit beim Jassen eine wichtige Rolle, beim Schach ist er hingegen  ganz bewusst ausgeschlossen. Das hat natürlich Konsequenzen. Weil ich beim Jassen mit dem Zufall rechnen muss, kann ich nicht wie beim Schach mit Gewissheiten, sondern muss mit Wahrscheinlichkeiten rechnen.

f) Verdeckte Informationen?

Das Nichtwissen bleibt nun für die Jasser während des ganzen Spiels eine Herausforderung. Während beim Schach zu jedem Zeitpunkt und für jeden Spieler alles offen auf dem Brett erkennbar ist, lebt das Jassen geradezu davon, dass der beteiligte Spieler NICHT weiss, wo sich die Karten befinden. Er muss also raten – d.h. mit Wahrscheinlichkeiten rechnen – und ein bestimmtes Risiko eingehen. Beim Schach gibt es kein Raten, die Situation ist immer klar, offen und evident. Selbstverständlich ist dadurch die Situation beim Schach wesentlich einfacher zu beschreiben, beim Jassen hingegen erschwert das Nicht-Wissen die Beschreibung der Situation.

g) Wahrscheinlichkeiten und Emotionen (Psychologie)

Wenn ich nicht alles weiss, muss ich mit Wahrscheinlichkeiten rechnen. Die Beobachtung zeigt, dass wir Menschen darin durchs Band sehr schlecht sind. Wir lassen uns dabei von Emotionen sehr viel stärker lenken, als wir uns das eingestehen möchten. Ängste und Hoffnungen bestimmen unsere Vorstellungen, und wir schätzen Wahrscheinlichkeiten oft grob falsch ein. Ein KI-Programm hat hier natürlich Vorteile, da Emotionen keine Rolle spielen und die Wahrscheinlichkeiten auch kalkulatorisch viel besser verarbeitet werden können. Doch die Maschine will ja einen Gegner besiegen und muss deshalb seine Reaktionen korrekt einschätzen. Das KI-Programm tut deshalb gut daran, den fehlerhaften Umgang des Gegenübers mit Wahrscheinlichkeiten in seine Überlegungen mit einzubeziehen, was algorithmisch aber nicht sehr einfach ist. Wie erkennt es den Optimisten? Der menschliche Spieler versucht den Gegner zu lesen und ihn gleichzeitig über die eigenen Emotionen zu täuschen. Das gehört zum Spiel. Es nützt dem Programm nichts, wenn es emotionslos rechnet, die Emotionen des Gegenübers aber nicht erkennen und bewerten kann.

h) Kommunikation 

Schach wird von einem Spieler gegen einen anderen gespielt. Gejasst wird meist zu viert, zwei Spieler gegen zwei andere. Dieser Aspekt, dass nämlich zwei Individuen ihre Aktionen miteinander abstimmen müssen, macht das Spiel interessant, und es wäre für ein Jass-Programm fatal, wenn es diesen Aspekt vernachlässigen würde. Wie sollen wir das nun programmieren? Beachten müssen wir dabei natürlich auch den Punkt f) oben, nämlich die Tatsache, dass ich die Karten meines Partners nicht sehen kann, ich kenne weder die Karten meiner Gegner, noch diejenigen meines Partners. Mein Partner und ich sind selbstverständlich daran interessiert, unser Spiel zu koordinieren, und dazu gehört, dass wir einander unsere Möglichkeiten (verdeckte Karten) und unsere Strategien (Absichten zum Spielverlauf) mitteilen. Wenn ich zum Beispiel ein Herz-As habe, möchte ich, dass mein Partner Herz spielt, sodass ich den Stich machen kann. Das darf ich ihm aber nicht offen sagen. Für routinierte Jasser ist das jedoch kein Problem. Erstens ergibt sich aus dem Spielverlauf oft, wer das Herz-As verdeckt in seinen Karten hat. Natürlich ist es nicht einfach, das herauszufinden, da dafür sowohl die gespielten Karten als auch mögliche Taktiken und Strategien in die Kalkulation einbezogen werden müssen. Die Zahl der Möglichkeiten, die Kalkulation der Wahrscheinlichkeiten und die Psychologie der Player kommen alle hier ins Spiel, was zu einer sehr spannenden Gemengelage führen kann – die ja letztlich auch den Reiz des Spiels ausmacht. Beim Schach hingegen, mit seiner stets sehr expliziten Situation, sind die Verhältnisse diesbezüglich sehr viel einfacher.

Doch es kommt noch dicker:

i) Der legale Graubereich

Kann ich mit meinem Partner wirklich nicht über unsere Karten und unsere Strategie kommunizieren? Offiziell ist das natürlich verboten – aber lässt sich das Verbot in der Praxis wirklich durchsetzen?

Natürlich nicht. Während beim Schach praktisch nur die expliziten Spielzüge eine Rolle spielen, gibt es beim Jassen viele zusätzliche Informationen, die ein geübter Spieler lesen können muss. Wie lächle ich, wenn ich eine Karte spiele? Wenn ich das Herz-As habe, das den nächsten Stich machen kann, möchte ich natürlich, dass mein Partner mir hilft und Herz ausspielt. Eine Möglichkeit das zu erreichen, wenn der Partner am Stich ist, ist es, eine wertlose Herzkarte zu spielen und sie dabei ganz deutlich und kräftig auf den Tisch zu hauen. Ein geübter Jasspartner wird das problemlos als Zeichen verstehen, als nächstes Herz und nicht etwa Karo auszuspielen, damit ich in der Folge mit meinem As den Stich machen kann. Niemand wird mir dieses Auf-den-Tisch-Hauen – solange es genügend diskret ist – wirklich verbieten können. Wirklich eingespielte Jassfreunde kennen neben den völlig legalen Zeichen, die sie automatisch durch die Wahl ihrer gespielten Karten abgeben, auch einige Zeichen aus dem Graubereich, mit denen sie ihr Spiel koordinieren.

Diese Zeichen sind Informationen, die eine ambitionierte KI erkennen und verarbeiten können muss. Die Menge der Information, die sie dabei verarbeiten muss, ist nicht nur viel grösser als die Informationsmenge beim Schach, sie ist auch keinesfalls limitiert. Meine KI spielt ja gegen zwei menschliche Gegner und auch diese kommunizieren. Ihre Kommunikation sollte die KI erkennen, um nicht hoffnungslos über den Tisch gezogen zu werden. Die von den Gegnern vereinbarten Zeichen können natürlich variieren und beliebig raffiniert sein. Wie findet meine KI heraus, wie sich die beiden vorgängig abgesprochen haben?

Fazit

Jassen ist schwieriger zu programmieren als Schach

Wenn wir ein Programm für das Jassen entwickeln wollen, müssen wir die Aspekte e) bis i) berücksichtigen, beim Schach hingegen spielen sie kaum eine Rolle. Algorithmisch gesehen stellen die Aspekte e) bis i) jedoch wegen ihrer Unwägbarkeiten eine schwierige Herausforderung dar.

Schach ist im Vergleich zum Jassen für den Computer wesentlich einfacher, da:

– immer gleiche Ausgangssituation
– keine verdeckte Information
– kein Einbezug von Wahrscheinlichkeitsüberlegungen
– geringe Rolle der menschlichen Emotionen
– kein legaler Graubereich, da kein Informationsaustausch zwischen zwei Partnern möglich ist

Schach ist deshalb für ein KI-Programm das einfachere Spiel. Es ist komplett definiert, d.h. die Informationsmenge, die im Spiel ist, ist sehr klein, klar offengelegt und klar begrenzt. Beim Jassen ist all das nicht der Fall.


Dies ist ein Beitrag zum Thema künstliche Intelligenz. Im zweiten Teil zum Thema Spiele und Intelligenz werde ich auf Go und Deep Learning eingehen.

Wie real ist das Wahrscheinliche?

Was nicht im Korpus ist, ist für die KI unsichtbar

Korpusbasierte KI-Systeme sind auf Erfolgskurs. Sie sind ‹disruptiv›, d.h. sie verändern unsere Gesellschaft nachhaltig und in sehr kurzer Zeit. Genügend Gründe also, sich zu vergegenwärtigen, wie diese Systeme effektiv funktionieren.

In den Vorbeiträgen habe ich  dargelegt, dass diese Systeme aus zwei Teilen bestehen, nämlich einem Daten-Korpus und einem neuronalen Netz. Selbstverständlich kann das Netz nichts erkennen, was nicht bereits im Korpus steckt. Die Blindheit des Korpus setzt sich automatisch im neuronalen Netz fort und die KI kann letztlich nur hervorbringen, was bereits in den Daten des Korpus vorgegeben ist. Ebenso verhält es sich mit Fehleingaben im Korpus. Auch diese finden sich in den Resultaten der KI und mindern insbesondere ihre Treffschärfe.

Wenn man sich die Wirkweise der KI vergegenwärtigt,  ist dieser Sachverhalt banal, denn der Lernkorpus ist die Grundlage für diese Art künstliche Intelligenz. Nur was im Korpus ist, kann im Resultat erscheinen und Fehler und Unschärfen des Korpus vermindern automatisch die Aussagekraft.

Weniger banal ist ein anderer Aspekt, der mit der künstlichen Intelligenz der neuronalen Netze ebenfalls essenziell verbunden ist. Es handelt sich um die Rolle der Wahrscheinlichkeit. Neuronale Netze funktionieren über Wahrscheinlichkeiten. Was genau heisst das und wie wirkt sich das in der Praxis aus?

Das neuronale Netz bewertet nach Wahrscheinlichkeit

Ausgangslage

Schauen wir wieder unsere Suchmaschine vom Vorbeitrag an: Ein Kunde unserer Suchmaschine gibt einen Suchstring ein. Andere Kunden haben bereits vorher den gleichen Suchstring eingegeben. Wir schlagen deshalb dem Kunden diejenigen Websites vor, die bereits die früheren Kunden ausgewählt haben. Weil das unübersichtlich viele sein können, wollen wir dem Kunden diejenigen zuoberst zeigen, die für ihn am interessantesten sind (siehe Vorbeitrag). Dazu bewerten wir alle Kunden gemäss ihren bisherigen Suchanfragen. Wie wir das im Detail machen, ist natürlich unser Geschäftsgeheimnis, schliesslich wollen wir gegenüber der Konkurrenz einen Vorsprung herausholen. Wie immer aber wir das auch tun – und wie immer es die Konkurrenz auch tut – am Schluss erhalten wir eine Gewichtung der Vorschläge der bisherigen Nutzer. Anhand dieser Gewichtung wählen wir die Vorschläge aus, die wir dem Fragesteller präsentieren, und die Reihenfolge, in der wir sie ihm zeigen. Und dabei sind die Wahrscheinlichkeiten entscheidend.

Beispiel

Nehmen wir an, der Anfragesteller A stellt  eine Suchanfrage an unsere Suchmaschine und die beiden Kunden B und C haben bereits die gleiche Suchanfrage wie A gestellt  und ihre Wahl, d.h. die Adressen der von ihnen gewählten Websites, in unserem gut gefüllten Korpus hinterlassen. Welche Auswahl sollen wir nun A bevorzugt präsentieren, die von B oder die von C?

Jetzt schauen wir uns die Bewertungen der drei Kunden an: Wie sehr stimmt das Profil von B und C mit dem Kunden A überein? Nehmen wir an, wir kommen auf folgende Übereinstimmungen:

Kunde B:  80%
Kunde C: 30%

Selbstverständlich nehmen wir an, dass Kunde B mit A besser übereinstimmt als C, und A deshalb mit den Antworten von B besser bedient ist.

Ist das aber sicher so?

Die Frage ist berechtigt, denn schliesslich besteht zu keinem der beiden anderen User eine vollständige Übereinstimmung. Vielleicht betreffen gerade die 30%, mit denen A und C übereinstimmen, das Gebiet der aktuellen Suchanfrage von A. Da wäre es schade, die Antwort von B bevorzugt zu platzieren, insbesondere wenn die 80% Übereinstimmung zu B ganz andere Gebiete betrifft, die mit der aktuellen Suchanfrage nichts zu tun haben. Zugegeben, die skizzierte Abweichung von der Wahrscheinlichkeit ist im konkreten Fall unwahrscheinlich, aber sie ist nicht unmöglich – das ist die eigentliche Crux mit den Wahrscheinlichkeiten.

Nun, wir entscheiden uns in diesem Fall vernünftigerweise für B, und wir können sicher sein, dass die Wahrscheinlichkeit auf unserer Seite ist. Für unseren Geschäftserfolg können wir uns getrost auf die Wahrscheinlichkeit verlassen. Warum?

Das hängt mit dem Prinzip der ‹grossen Zahl‹ zusammen. Für den einzelnen Fall kann – wie oben geschildert – die Antwort von C wirklich die bessere sein. In den meisten Fällen aber wird die Antwort von B unserem Kunden besser gefallen und wir tun gut daran, ihm diese Antwort zu geben. Das ist das Prinzip der ‹grossen Zahl›. Es liegt dem Phänomen Wahrscheinlichkeit essenziell zugrunde:

Im Einzelfall kann etwas geschehen, was unwahrscheinlich ist, für viele Fälle können wir uns aber darauf verlassen, dass meistens das Wahrscheinliche geschieht.

Fazit für unsere Suchmaschine
  1. Wenn wir uns also dafür interessieren, in den meisten Fällen recht zu bekommen, halten wir uns an die Wahrscheinlichkeit.
  2. Wir nehmen dabei in Kauf, dass wir in seltenen Fällen daneben greifen.
Fazit für die korpusbasierte KI generell

Was für unsere Suchmaschine gilt, gilt ganz generell für jede korpusbasierte KI, da eine solche immer mit Wahrscheinlichkeiten funktioniert. Somit lautet das Fazit für die korpusbasierte KI:

  1. Wenn wir uns dafür interessieren, in den meisten Fällen recht zu bekommen, halten wir uns an die Wahrscheinlichkeit.
  2. Wir nehmen dabei in Kauf, dass wir in seltenen Fällen daneben greifen.

Wir müssen bei der korpusbasierten KI mit einer inhärenten Schwäche rechnen, einer Art Achillesferse einer sonst hochpotenten Technologie. Diese Ferse sollten wir sorgfältig weiter beobachten:

  1. Vorkommen:
    Wann tritt der Fehler eher auf, wann kann man ihn eher vernachlässigen? Dies hängt mit der Grösse des Korpus und seiner Qualität, aber auch mit der Art der Fragestellung zusammen.
  2. Konsequenzen:
    Was hat es für Folgen, wenn seltene Fälle vernachlässigt werden?
    Kann das permanente Mitteln und Beachten nur der wahrscheinlichsten Lösungen als intelligent bezeichnet werden?
  3. Zusammenhänge:
    Für die grundlegenden Zusammenhänge interessant ist der Bezug zum Begriff der Entropie: Der 2. Hauptsatz der Wärmelehre besagt, dass in einem geschlossenen System immer das Wahrscheinlichere geschieht und die Wärmelehre misst diese Wahrscheinlichkeit anhand der Variablen S, welche sie als Entropie bezeichnet.
    Das Wahrscheinliche geschieht, in der Wärmelehre und in unserer Suchmaschine – wie aber wählt eine natürliche Intelligenz?

Dies ist ein Beitrag zum Thema künstliche Intelligenz. Im nächsten Beitrag geht es um Spiele und Intelligenz, konkret um den Unterschied zwischen Schach und Jassen.

Die Intelligenz in der Suchmaschine

Wie kommt die Intelligenz in die Suchmaschine?

Nehmen wir an, Sie bauen eine Suchmaschine. Sie wollen dabei möglichst keine teuren und nicht immer fehlerfreien menschlichen Fachexperten (domain experts) einsetzen, sondern die Suchmaschine nur mit ausreichend Datenservern (der Hardware für den Korpus) und einer ausgeklügelten Software bauen. Wieder verwenden Sie im Prinzip ein neuronales Netz mit einem Korpus. Wie bringen Sie nun die Intelligenz in Ihr System?

Trick 1: Lass die Kunden den Korpus trainieren

Bei einer Suchmaschine geht es wie bei der Panzer-KI der Vorbeiträge um Zuordnungen, diesmal von einem Eingabetext (Suchstring) eines Kunden zu einer Liste von Webadressen, die für seine Suche interessant sein könnten. Um die relevanten Adressen zu finden, basiert Ihr System wiederum auf einem Lernkorpus, der diesmal aus der Liste aller Sucheingaben von allen Ihren bisherigen Kunden besteht. Die Webadressen, die die früheren Kunden aus den ihnen angebotenen auch tatsächlich angeklickt haben, sind im Korpus als positive Hits vermerkt. Also geben Sie bei neuen Anfragen – auch von anderen Kunden – einfach die Adressen an, die bisher am meisten Klicks erhalten haben. So schlecht können die ja nicht sein, und mit jeder Anfrage und dem darauf folgenden Klick verfeinert sich das System. Und dann gilt: Je grösser der Korpus, umso präziser.

Wieder stammen diese Zuordnungen von aussen, nämlich von den Menschen, die die Auswahl, die Ihre Suchmaschine ihnen angeboten hat, mit ihren Klicks entsprechend bewertet haben. Die Menschen haben das getan:

  • mit ihrer menschlichen Intelligenz und
  • entsprechend ihren jeweiligen Interessen.

Besonders der zweite Punkt ist interessant. Wir könnten später noch etwas detaillierter darauf eingehen.

Trick 2: Bewerte die Kunden dabei mit

Nicht jede Zuordnung von jedem Kunden ist gleich relevant. Als Suchmaschinenbetreiber können Sie hier an zwei Punkten optimieren:

  • Bewerten Sie die Bewerter:
    Sie kennen ja alle Eingaben Ihrer Kunden. So können Sie leicht herausfinden, wie verlässlich die von ihnen gemachten Zuordnungen (die angeklickte Webadressen zu den eingegebenen Suchstrings) sind. Nicht alle Ihre Kunden sind in dieser Hinsicht gleich gut. Je mehr andere Kunden für den gleichen Suchstring die gleiche Webadresse anwählen, umso sicherer wird die Zuordnung auch für zukünftige Anfragen sein. Verwenden Sie nun diese Information, um die Kunden zu gewichten: Der Kunde, der bisher die verlässlichsten Zuordnungen hatte, d.h. derjenige, der am meisten das wählte, was die anderen auch wählten, wird am höchsten gewichtet. Einer, dem die anderen weniger folgten, gilt als etwas weniger verlässlich. Durch die Gewichtung erhöhen Sie die Wahrscheinlichkeit, dass die zukünftigen Suchergebnisse die Websites höher bewerten, die die meisten Kunden interessieren.
  • Bewerten Sie die Sucher:
    Nicht jeder Suchmaschinenbenutzer hat die gleichen Interessen. Das können Sie berücksichtigen, denn Sie kennen ja bereits alle früheren Eingaben von ihm. Diese können Sie verwenden, um ein Profil von ihm zu erstellen. Das dient natürlich dazu, die Suchergebnisse für ihn entsprechend auszuwählen. Bewerter mit einem ähnlichen Profil wie der Sucher werden die potenziellen Adressen auch ähnlich gewichten, und sie können so die Suchergebnisse noch mehr im Interesse des Kunden personalisieren.

Es lohnt sich für Sie als Suchmaschinenbetreiber auf jeden Fall, von allen Ihren Kunden ein Profil zu erstellen,  nur schon zur Verbesserung der Qualität der Suchvorschläge.

Konsequenzen

  1. Suchmaschinen werden durch den Gebrauch immer präziser.
    Das gilt für alle korpusbasierten Systeme, also für alle Technologien mit neuronalen Netzen: Je grösser ihr Korpus ist, desto besser ist ihre Präzision.  Sie können zu erstaunlichen Leistungen fähig sein.
  2. In diesem Zusammenhang lässt sich ein bemerkenswerter Rückkopplungseffekt feststellen: Je grösser ihr Korpus ist, umso besser ist die Qualität einer Suchmaschine und deshalb wird sie häufiger benützt, was wiederum ihren Korpus vergrössert und so ihre Attraktivität gegenüber der Konkurrenz steigert. Dieser Effekt führt unweigerlich zu den Monopolen, wie sie typisch sind für alle Anwendungen von korpusbasierter Software.
  3. Alle Bewertungen sind primär von Menschen erstellt worden.
    Die Basis der Intelligenz – die zuordnenden Eingaben im Korpus – erfolgen weiterhin durch Menschen. Bei den Suchmaschinen ist das jeder einzelne Benutzer, der so sein Wissen in den Korpus eingibt. So künstlich ist die Intelligenz in dieser KI also gar nicht.
  4. Korpusbasierte Systeme tragen die Tendenz zur Blasenbildung in sich: Wenn Suchmaschinen von ihren Kunden Profile anlegen, können sie diese mit besseren Suchergebnissen bedienen. Das führt aber in einem selbstreferenziellen Prozess unweigerlich zu einer Blasenbildung: Anwender mit ähnlichen Ansichten werden von den Suchmaschinen immer näher zusammen gebracht, da sie auf diese Weise die Suchergebnisse erhalten, die ihren jeweiligen Interessen und Ansichten am besten entsprechen.  Abweichende Ansichten bekommen sie immer weniger zu Gesicht.

Dies ist ein Beitrag zum Thema künstliche Intelligenz. Im nächsten Beitrag geht es um einen weiteren wichtigen Aspekt der korpusbasierten Systeme, nämlich um die Rolle der Wahrscheinlichkeit.

Was der Korpus weiss – und was nicht

Die Erstellung des Korpus

In einem Vorbeitrag haben wir gesehen, wie der Korpus – die Basis für das neuronale Netz der KI – erstellt wird. Das neuronale Netz kann den Korpus auf raffinierte Weise interpretieren, aber selbstverständlich kann das neuronale Netz nichts aus dem Korpus herausziehen, was nicht drin steckt.

Das neuronale Netz holt das Wissen aus seinem Korpus
Abb. 1: Das neuronale Netz holt das Wissen aus seinem Korpus

Wie wird der Korpus erstellt? Ein Fachexperte ordnet Bilder einer bestimmten Klasse, einem bestimmten Typus zu, z.B. ‹fremde Panzer› versus ‹eigene Panzer›. Diese Zuordnungen des Experten sind in Abb. 2 die roten Pfeile, welche z.B. die Panzerbilder bewerten.

Abb. 2: Erstellung der Zuordnungen im Korpus
Abb. 2: Erstellung der Zuordnungen im Korpus

Selbstverständlich müssen die durch den menschlichen Experten erfolgten Zuordnungen der einzelnen Bilder zu den Zielkategorien korrekt sein. Doch das reicht nicht. Es bestehen prinzipielle Grenzen für die Auswertbarkeit eines Korpus durch ein noch so raffiniertes neuronales Netz.

Der Zufall regiert im zu kleinen Korpus

Wenn ich nur farbige Bilder der eigenen und schwarzweisse Bilder der fremden Panzer habe (siehe Einstiegsbeitrag zur KI), dann kann sich das System leicht irren und alle farbigen der eigenen und die schwarzweissen der fremden Armee zuordnen. Mit einem genügend grossen Korpus kann dieser Mangel zwar behoben werden, doch zeigt das Beispiel, wie wichtig die richtige Bestückung des Korpus ist. Wenn ein Zufall (farbig/schwarzweiss) entscheidend in den Korpus hineinspielt, wird das System falsche Schlüsse ziehen. Der Zufall spielt dabei eine umso grössere Rolle, je kleiner der Korpus, aber auch je grösser die Anzahl der möglichen ‹Outcomes› (= Anzahl der prinzipiell möglichen Resultate) ist.

Neben diesen relativen Hindernissen gibt es aber auch prinzipielle Grenzen der Auswertbarkeit eines KI-Korpus. Darauf gehen wir jetzt ein.

Raupen- oder Radpanzer?

Was im Korpus nicht drin ist, kann auch nicht herausgeholt werden. Selbstverständlich kann ich mit einem Panzer-Korpus keine Flugzeuge klassifizieren.

Neuronales Netz mit Panzern
Abb 3: Die Bewertung entscheidet – Korpus mit eigenen und fremden Panzern und entsprechend programmiertem Netz.

Was aber ist, wenn unser Panzersystem herausfinden soll, ob es sich um Raupen- oder um Radpanzer handelt? Im Prinzip können im Korpus ja Bilder von beiden Sorten von Panzern enthalten sein. Wie kann die Panzer-KI aus unserem Beispiel das erkennen?

Die einfache Antwort ist: gar nicht. Im Korpus hat das System zwar viele Bilder von Panzern und weiss bei jedem, ob es ein fremder oder eigener ist. Aber ist es ein Radpanzer oder nicht? Diese Information steckt im Korpus (noch) nicht drin und kann deshalb von der KI nicht herausgezogen werden. Zwar kann ein Mensch jedes einzelne Bild entsprechend beurteilen, so wie er das mit der Eigenschaft ‹fremd/eigen› gemacht hat. Aber dann ist es eine KI-fremde, von aussen zugeführte Intelligenz, die das tut. Das neuronale Netz kann das nicht selber leisten, da es nichts über Raupen oder Räder weiss. Es hat nur gelernt, eigene von fremden Panzern zu unterscheiden. Für jede neue Kategorie muss zuerst die Information in den Korpus gegeben (neue rote Pfeile in Abb. 2) und dann das neuronale Netz für die neuen Fragen geschult werden.

Eine solche Schulung muss zwar nicht zwingend am Panzer-Korpus erfolgen. Das System könnte auch anhand eines Korpus von ganz anderen Fahrzeugen lernen, ob sich diese sich auf Rädern oder Raupen bewegen. Auch wenn sich der Unterschied automatisch auf den Panzerkorpus übertragen lässt, muss doch das externe Räder/Raupen-System vorgängig trainiert werden – und zwar mit Zuordnungen, die wieder ein Mensch gemacht hat.

Selber, ohne vorgegebene Beispiele, findet das KI-System dies nicht heraus.

Fazit

  1. Aus einem Korpus können nur Schlüsse gezogen werden, die im Korpus angelegt sind.
  2. Die Kategorie-Zuordnungen (die roten Pfeile in Abb. 2) kommen immer von aussen, d.h. von einem Menschen.

In unserem Beispiel haben wir mit dem Panzerbeispiel eine typische Bilderkennungs-KI untersucht. Aber gelten die daraus gezogenen Schlüsse (siehe Fazit oben) auch für andere korpusbasierte Systeme? Und gibt es nicht so etwas wie ‹Deep Learning›, also die Möglichkeit, dass ein KI-System ganz von selber lernt?

Schauen wir deshalb im nächsten Beitrag einen ganz anderen Typ mit korpusbasierter KI an.


Dies ist ein Beitrag zum Thema künstliche Intelligenz.


 

Korpusbasierte KI: Wo steckt die Intelligenz?

Vorbemerkung

Im Vorbeitrag haben wir gesehen, dass bei der regelbasierten KI die Intelligenz in den Regeln steckt. Diese Regeln sind menschengemacht und das System ist so intelligent wie die Menschen, die die Regeln geschrieben haben. Wie sieht das nun bei der korpusbasierten Intelligenz aus?

Die Antwort ist etwas komplizierter als bei den regelbasierten Systemen. Schauen wir deshalb den Aufbau eines solchen korpusbasierten Systems genauer an. Er geschieht in drei Schritten:

  1. Erstellen einer möglichst grossen Datensammlung (Korpus)
  2. Bewertung dieser Datensammlung
  3. Training des neuronalen Netzes (Lernphase)

Sobald das Netz erstellt ist, kann es angewendet werden:

  1.  Anwendung des neuronalen Netzes

Schauen wir die vier Schritte genauer an und überlegen wir uns dabei, worauf es ankommt und wo die Intelligenz in das korpusbasierte System hineinkommt.

Schritt 1: Erstellung der Datensammlung

In unserem Panzerbeispiel besteht der Korpus (die Datensammlung) aus Photographien von Panzern. Bilder sind typisch für korpusbasierte Intelligenz, aber die Sammlung kann natürlich auch andere Informationen enthalten, z.B. Suchanfragen von Kunden einer Suchmaschine oder GPS-Daten von Handys. Typisch ist, dass die Daten von jedem einzelnen Eintrag aus so vielen Einzelelementen (z.B. Pixeln) bestehen, dass Ihre Auswertung mit bewusst von Menschen konstruierten Regeln zu aufwendig wird. Dann lohnt sich ein regelbasiertes System nicht mehr.

Die Sammlung der Daten reicht aber nicht aus. Sie müssen jetzt auch bewertet werden.

Schritt 2: Bewertung des Korpus
Korpusbasiertes System
Abb. 1: Korpusbasiertes System

Abb. 1 zeigt das bereits bekannte Bild aus unserem Panzerbeispiel. Auf der linken Seiten sehen Sie den Korpus. Dieser ist in der Abbildung bereits bewertet, die Bewertung ist symbolisiert durch die kleinen schwarzen und grünen Fähnchen (Flags) links an jedem Panzerbild.

Man kann sich den bewerteten Korpus vereinfacht als eine zweispaltige Tabelle vorstellen. In der linken Spalte sitzt die Bildinformation, in der rechten die Bewertung und der Pfeil dazwischen ist die Zuordnung, die somit ein wesentlicher Teil des Korpus wird, sie sagt nämlich, zu welcher Kategorie (e oder f) das jeweilige Bild gehört, wie es also bewertet wird.

Korpus mit Bewertungen
Tabelle 1: Korpus mit Bewertungen (e=eigen, f=fremd)

Typischerweise sind die Informationsmengen in den beiden Spalten von sehr unterschiedlicher Grösse. Während die Bewertung in der rechten Spalte in unserem Panzerbeispiel aus genau einem Bit besteht, enthält das Bild der linken Spalte alle Pixel der Photographie; zu jedem Pixel sind Lage, Farbe usw. abgespeichert, also eine ziemlich grosse Datenmenge. Dieser Unterschied im Grössenverhältnis ist typisch für korpusbasierte Systeme – und falls Sie philosophisch interessiert sind, möchte ich auf den Bezug zum Thema Informationsreduktion und Entropie hinweisen . Im Moment geht es uns aber um die Intelligenz in den korpusbasierten KI-Systemen und wir halten dazu fest, dass im Korpus zu jedem Bild seine korrekte Zielkategorie fest zugeordnet wird.

Bei dieser Zuordnung wissen wir nicht, wie sie geschieht, denn sie wird durch einen Menschen durchgeführt, mit den Neuronen in seinem eigenen Kopf, deren genaues Verhalten ihm wohl kaum bewusst ist. Er könnte also nicht Regeln dafür angeben. Hingegen weiss er, was die Bilder darstellen, und vermerkt das im Korpus, eben mit der Zuordnung der entsprechenden Kategorie. Diese Zuordnung kommt von aussen durch den Menschen in den Korpus, sie ist zu hundert Prozent menschengemacht. Gleichzeitig ist diese Bewertung eine absolute Bedingung und die Grundlage für den Aufbau des neuronalen Netzes. Auch später, wenn das fertig trainierte neuronale Netz den Korpus mit den von aussen eingebrachten Zuordnungen nicht mehr braucht, war er doch vorher notwendig, damit das Netz überhaupt entsteht und arbeiten kann.

Woher stammt also die Intelligenz bei der Zuordnung der Kategorien e) und f)? Es ist letztlich ein Mensch, der diese Zuordnung macht und auch falsch machen kann; es handelt sich um seine Intelligenz. Sobald die Zuordnung im Korpus einmal notiert ist, handelt es sich nicht mehr um aktive Intelligenz, sondern um fixiertes Wissen.

Bewertung des Korpus
Abb. 2: Bewertung des Korpus

Die Bewertung des Korpus ist eine entscheidende Phase, und Intelligenz ist dabei zweifellos nötig. Die zusammen getragene Datensammlung muss bewertet werden und der Fachexperte, der diese Bewertung durchführt, muss garantieren, dass sie korrekt ist. In Abb. 2 ist die Intelligenz des Fachexperten durch den gelben Kreis repräsentiert. Der Korpus erhält das so erstellte Wissen über die Zuordnungen; die Zuordnungen selber sind in Abb. 2 als rote Pfeile dargestellt.

Wissen ist etwas anderes als die Intelligenz. Es ist einem gewissen Sinn passiv. In diesem Sinn handelt es sich bei den im Korpus festgehaltenen Informationen um Wissensobjekte, d.h. um Zuordnungen, die formuliert sind und nicht mehr bearbeitet werden müssen. Intelligenz hingegen ist ein aktives Prinzip, das selber Wertungen vornehmen kann, so wie es der menschliche Experte tut. Bei den Elementen im Korpus aber handelt es sich um Daten oder dann bei den erwähnten Zuordnungen um Resultate der Intelligenz von Experten – also um fest formuliertes Wissen.

Um dieses Wissen von der Intelligenz zu unterscheiden, habe ich es in Abb. 2 nicht gelb, sondern grün markiert.

Wir unterscheiden somit sinnvollerweise drei Dinge:

Daten (die Datensammlung im Korpus)
Wissen (die durchgeführte Bewertung dieser Daten)
Intelligenz (die Fähigkeit, diese Bewertung durchzuführen).

Schritt 3: Training des neuronalen Netzes
Lernphase
Abb. 3: Das neuronale Netz lernt das Wissen des Korpus

In der Trainingsphase wird auf Basis des Lernkorpus das neuronale Netz aufgebaut. Damit das funktioniert, ist wieder eine beträchtliche Intelligenz notwendig, diesmal kommt sie vom KI-Experten, der das Funktionieren der Lernphase ermöglicht und steuert. Dabei spielen Algorithmen eine Rolle, die dafür verantwortlich sind, dass das Wissen im Korpus korrekt ausgewertet wird und das neuronale Netz genau die Form erhält, die bewirkt, dass alle im Korpus festgehaltenen Zuordnungen auch durch das Netz nachvollzogen werden können.

Die Wissensextraktion und die dabei verwendeten Algorithmen sind durch den braunen Pfeil zwischen Korpus und Netz symbolisiert. Wenn man will, kann man ihnen durchaus eine gewisse Intelligenz zubilligen, doch sie tun nichts, was nicht vom IT-Experten bzw. vom Wissen im Korpus vorgegeben wird. Das entstehende neuronale Netz selber hat keine eigene Intelligenz, sondern ist das Ergebnis dieses Prozesses und somit der Intelligenz der Experten. Es enthält aber beträchtliches Wissen und ist deshalb in Abb. 3 grün dargestellt, wie das Wissen im Korpus in Abb. 2. Im Gegensatz zum Korpus sind die Zuweisungen (rote Pfeile) aber jetzt wesentlich komplexer, genau so, wie es in einem neuronalen Netz eben komplexer zu und her geht als in einer einfachen zweispaltigen Tabelle (Tabelle 1).

Und noch etwas unterscheidet das Wissen im Netz vom Wissen im Korpus: Im Korpus handelt es sich um Wissen über Einzelfälle, im Netz hingegen ist das Wissen abstrakt. Es kann deshalb auch auf bisher unbekannte Fälle angewendet werden.

Schritt 4: Anwendung
Anwendung eines neuronalen Netzes
Abb. 4: Anwendung eines neuronalen Netzes

In Abb. 4 wird ein bisher unbekanntes Bild vom neuronalen Netz bewertet und entsprechend dem im Netz gespeicherten Wissen kategorisiert. Dabei ist kein Korpus und auch kein Experte mehr nötig, es reichen die ‚geschulten‘, aber jetzt feststehenden Verdrahtungen im neuronalen Netz. Das Netz ist in diesem Moment nicht mehr in der Lage, etwas dazuzulernen. Es ist aber fähig zu durchaus eindrücklichen Leistungen mit ganz neuem Input. Diese Leistungen werden ermöglicht durch die vorgängigen Arbeiten, also den Aufbau des Korpus, die in ihm enthaltenen, (hoffentlich) korrekten Bewertungen und den Algorithmen der Lernphase. Hinter dem Lernkorpus steckt die menschliche Intelligenz des Fachexperten, hinter den Algorithmen der Trainingsphase die menschliche Intelligenz des IT-Experten.

Fazit

Was uns als künstliche Intelligenz erscheint, ist das Resultat der durchaus menschlichen, d.h. natürlichen Intelligenz der Fachexperten und IT-Spezialisten.


Dies ist ein Beitrag zum Thema künstliche Intelligenz. Im nächsten Beitrag schauen wir noch genauer hin. Wir schauen, was für Wissen in einem Korpus wirklich steckt. Und was die KI aus dem Korpus herausholen kann und was nicht.

Kombinatorische Explosion

Objekte und Relationen

Als erstes schauen wir eine Menge von Objekten an und überlegen uns, wie viele Verbindungen (Relationen) es zwischen ihnen gibt. Dabei legen wir unser Augenmerk nicht auf die Art der Beziehung zwischen den Objekten, sondern beschränken uns darauf, die Relationen zu zählen. Das ist ganz einfach ist, denn im Prinzip besteht zwischen jeweils zwei Objekten immer genau eine Relation. Auch wenn die zwei Objekte nichts miteinander zu tun haben, ist das eine Information, die etwas aussagt, und somit eine gültige, d.h. aussagekräftige Relation. Wir zählen also die Zahl der möglichen Verbindungen zwischen den Objekten zusammen und vergleichen die Zahl der Objekte mit der Zahl der Relationen.

7 Objekte und ihre Relationen
Abb 1: Sieben Objekte und ihre Relationen

In Abb 1 sehen wir sieben Objekte (blau) und ihre Relationen (rot). Jedes Objekt ist mit jedem anderen Objekt verbunden, in unserem Beispiel also jedes der 7 Objekte mit 7-1 = 6 weiteren Objekten. Insgesamt erhalten wir so 7 *6 / 2 = 21 Relationen. Die allgemeine mathematische Formel dafür ist oder NR = (NO2 – NO) / 2. Dabei ist NR die Zahl der Relationen und NO die Zahl der Objekte.
Die Zahl der Relationen nimmt, wie wir aus der Formel ersehen können, im Quadrat zur Zahl der Objekte zu. Nicht-mathematisch ausgedrückt:

Es gibt immer viel mehr Relationen als Objekte, und zwar sehr viel mehr!

Hier eine kleine Tabelle mit den Zahlen für Objekte und Relationen:

NO  NR
———————-
1    0
2    1
3    3
4    6
5    10
6    15
7    21
8    28
9    36
10     45
100   4950
1000    499’500

Tab 1: Objekte und Relationen

Bei kleinen Zahlen fällt die quadratische Steigerung nicht so auf, bei nur leicht grösseren fällt sie aber schon deutlich ins Gewicht. Wir können uns jetzt schon überlegen, was diese Zunahme in der Praxis bedeutet, schauen uns aber vorher noch die Zahl der möglichen Kombinationen an.

Objekte und Kombinationen

Bei Kombinationen geht es darum, wie mehrere Objekte miteinander kombiniert werden können. Während bei den Relationen eine Relation immer genau zwei Objekte verbindet, können Kombinationen beliebig viele Objekte enthalten, also jede Anzahl Objekte von 1 bis alle (= NO).

Tab 2: Objekte und Kombinationen
Tab 2: Objekte und Kombinationen

Tabelle 2 zeigt Mengen mit 1 bis 4 Objekten. Die Anzahl der Objekte ist in der ersten Spalte, diejenige der Kombinationen in der zweiten aufgeführt. Die Objekte sind mit Buchstaben (a, b, c ,d) bezeichnet. In der Spalte ganz rechts sind die jeweils möglichen Kombinationen aufgezählt. Bei nur einem Objekt (a) gibt es gerade einmal eine Kombination, die aus genau diesem Element besteht, bei 2 Objekten gibt es 3 Kombinationen und bei 4 Elementen sind es bereits 15. Die Zahl der Kombinationen pro Objekt nimmt also noch stärker zu als vorher die Zahl der Relationen. Die Formel dafür ist: NC = 2No – 1.

Bei den Relationen wird NO quadriert, während es bei den Kombinationen im Exponenten vorkommt. Dies bewirkt eine noch grössere, nämlich eine exponentielle Steigerung. Die Zahl der möglichen Kombinationen steigt dabei exponentiell zur Zahl der vorhandenen Objekte. Bei 10 Objekten gibt es bereits 1023 Kombinationen, bei 100 Objekten sind es in der Tat 1’267’650’600’228’229’401’496’703’205’375 Kombinationen.

Die Zahl der Kombinationen steigt somit sehr schnell extrem stark an.

Diese exponentielle Zunahme ist die Basis der kombinatorischen Explosion.

Kombinatorische Explosion

Nehmen wir an wir haben verschiedene Objekte mit verschiedenen Eigenschaften, z.B.:

4 Formen: rund, quadratisch, dreieckig, sternförmig.
8 Farben: rot, orange, gelb, grün, blau, braun, weiss, schwarz.
7 Materialen: Holz, PVC, Aluminium, Karton, Papier, Glas, Stein.
3 Grössen: klein, mittel, gross.

Diese vier Klassen mit ihren insgesamt 22 Eigenschaften können wir nun beliebig kombinieren, ein Objekt kann also z.B. dreieckig, grün, mittelgross und aus PVC sein. Wie viele verschiedenartige Objekte können wir mit den 22 Eigenschaften nun insgesamt unterscheiden?

Die Antwort ist, dass aus jeder der vier Klassen (Form, Farbe, Material, Grösse) je eine Eigenschaft unabhängig gewählt werden kann. Das ergibt insgesamt 4x8x7x3 = 672 Möglichkeiten der Kombination. Mit 22 Eigenschaften können also 672 verschiedene Objekte beschrieben werden. Für jede weitere Klasse multipliziert sich die Zahl der Möglichkeiten.

Schon nach wenigen zusätzlichen Klassen explodiert die Zahl der möglichen Kombinationen regelrecht.

Das ist die kombinatorische Explosion. Sie spielt in ganz vielen Situationen eine entscheidende Rolle.


Nachtrag vom 23.3.2020

Beispiele für exponentielles Wachstum:
– Epidemien
– Zins und Zinseszins
– Gewisse Treibhausgase
– Kettenreaktionen, z.B. in nuklearen Explosionen
– «Going viral» im Internet
– «Going viral» von Unternehmen
– Popularitätskurven von Showstars und Politikern

Grenzen des Wachstums:
Da in der Realität kein unbegrenztes Wachstum möglich ist, stösst ein exponentielles Wachstum immer an Grenzen, weil entweder die Ressourcen für weiteres Wachstum erschöpft sind, oder kein Raum für weitere Ausbreitung mehr vorhanden ist.  Oft bricht dann das Wachstum plötzlich und unerwartet ab.

Lineares und exponentielles Wachstum:
Wir tendieren dazu, Wachstum als linear, d.h. als gleichmässig anzusehen. Wachstum ist aber in vielen Gebieten exponentiell, was wir oft ausblenden. Weshalb ist das so? Wenn wir nur einen kleinen Zeitraum eines exponentiellen Wachstums anschauen, erscheint die Kurve linear, erst bei einer längeren Betrachtungsweise zeigt sich die exponentielle Steigung. Die Steigung kann zu Beginn sogar sehr  klein sein und  quasi vernachlässigbar erscheinen, doch das ist eine Täuschung, wenn das Wachstum exponentiell ist.

Vergleich der Entwicklung der beiden KI-Methoden

Zwei KI-Methoden und ihre Herausforderungen

In meinem ersten Beitrag zur KI  habe ich die beiden bereits in den 90er-Jahren verwendeten, sehr unterschiedlichen KI-Methoden skizziert. Beide Methoden waren damals nicht in Hochform. Folgende Mängel standen ihnen im weg:

Bei der korpusbasierten waren es:
– Die Intransparenz der Schlussfolgerungs-Wege
– Die Notwendigkeit, einen sehr grossen und korrekten Lernkorpus aufzubauen.

Bei der regelbasierten waren es:
– Die Rigidität der mathematischen Logik
– Die Unschärfe unserer Wörter
– Die Notwendigkeit, sehr grosse Wissensbasen manuell aufzubauen
– Die Notwendigkeit, teure und seltene Fachexperten einzusetzen.

Was wurde seit den 90er-Jahren verbessert?

Wir haben den phänomenalen Aufschwung der korpusbasierten Technik erlebt; praktisch alles, was heute KI genannt wird, funktioniert über die korpusbasierte Methode und ist in der Tat sehr eindrücklich.

Im Gegensatz dazu waren die Hindernisse für die regelbasierte Methode – rigide Logik und vieldeutige Begriffe – nicht so leicht zu überwinden. Sie machten einen Paradigmenwechsel erforderlich, eine grundlegende Änderung der Denkweise: Weg von der Sicherheit der traditionellen Logik hin zu einem offenen System. Diesen Schritt wollten die akademischen Teams nicht gehen, weshalb die traditionelle regelbasierte Methode mehr oder weniger dort blieb, wo sie war. Die Hindernisse sind zwar nicht unüberwindlich, wie der Erfolg z.B. unserer Begriffsmoleküle zeigt, doch diese neue regelbasierte Methoden ist kaum bekannt.

Verbreitung der KI-Methoden im Verlauf der Zeit

Abb 1: Schätzung der Verbreitung der KI-Methoden.
Die Vertikalachse ist vertikal gestaucht, d.h. die Grössenverhältnisse sind noch drastischer als dargestellt. Die Kurve ist zudem oben abgeschnitten, da die exponentielle Zunahme der korpusbasierten Methode den Rahmen sprengen würde.

In Abb. 1 habe ich versucht darzustellen, wie sich der Einsatz der Methoden im Verlauf der Zeit verändert hat.  Während die korpusbasierten Methoden (grün) ihre Verbreitung exponentiell gesteigert haben, sind die regelbasierten (blau) praktisch stationär geblieben. Die verbesserte regelbasierte Methode der Begriffsmoleküle (gelb) wird zur Zeit erst marginal eingesetzt.


Dies ist ein Beitrag zum Thema künstliche Intelligenz (KI). Aber ist der Name überhaupt korrekt? Sind diese Systeme wirklich intelligent? Schauen wir als erstes die regelbasierte Intelligenz an.

Die drei Neuerungen der regelbasierten KI

Haben die neuronalen Netze die regelbasierten Systeme abgehängt?

Es ist nicht zu übersehen: Die korpusbasierte KI hat die regelbasierte KI um Längen überholt. Neuronale Netze machen das Rennen, wohin man schaut. Schläft die Konkurrenz? Oder sind regelbasierte Systeme schlicht nicht in der Lage, gleichwertige Ergebnisse wie neuronale Netze zu erzielen?

Meine Antwort ist, dass die beiden Methoden aus Prinzip für sehr unterschiedliche Aufgaben prädisponiert sind. Ein Blick auf die jeweiligen Wirkweisen macht klar, wofür die beiden Methoden sinnvollerweise eingesetzt werden. Je nach Fragestellung ist die eine oder die andere im Vorteil.

Trotzdem bleibt das Bild: Die regelbasierte Variante scheint auf der Verliererspur. Woher kommt das?

In welcher Sackgasse steckt die regelbasierte KI?

Meines Erachtens hat das Hintertreffen der regelbasierten KI damit zu tun, dass sie ihre Altlasten nicht loswerden will. Dabei wäre es so einfach. Es geht darum:

  1. Semantik als eigenständiges Wissensgebiet zu erkennen
  2. Komplexe Begriffsarchitekturen zu verwenden
  3. Eine offene und flexible Logik (NMR) einzubeziehen.

Wir tun dies seit über 20 Jahren mit Erfolg. Andernorts allerdings ist
die Notwendigkeit dieser drei Neuerungen und des damit verbundenen Paradigmenwechsels noch nicht angekommen.

Was bedeuten die drei Punkte nun im Detail?

Punkt 1: Semantik als eigenständiges Wissensgebiet erkennen

Üblicherweise ordnet man die Semantik der Linguistik zu. Dem wäre im Prinzip nichts entgegen zu halten, doch in der Linguistik lauert für die Semantik eine kaum bemerkte Falle: Linguistik beschäftigt sich mit Wörtern und Sätzen. Der Fehler entsteht dadurch, dass man die Bedeutung, d.h. die Semantik, durch den Filter der Sprache sieht und glaubt, ihre Elemente auf die gleiche Weise anordnen zu müssen, wie die Sprache das mit den Wörtern macht. Doch die Sprache unterliegt einer entscheidenden Einschränkung, sie ist linear, d.h. sequenziell: Ein Buchstabe kommt nach dem anderen, ein Wort nach dem anderen.  Es ist nicht möglich, Wörter parallel nebeneinander zu setzen. Im Denken können wir das aber. Und wenn wir die Semantik von etwas untersuchen, geht es darum, wie wir denken und nicht, wie wir sprechen.

Wir müssen also Formalismen finden für die Begriffe, wie sie im Denken vorkommen. Die Beschränkung durch die lineare Anordnung der Elemente und die sich daraus ergebende Notwendigkeit, behelfsweise und in jeder Sprache anders mit grammatikalischen Kunstgriffen Klammerungen und komplexe Beziehungsstrukturen nachzubilden, diese Beschränkung gilt im Denken nicht und wir erhalten dadurch auf der semantischen Seite ganz andere Strukturen als auf der sprachlichen Seite.

Wort ≠ Begriff

Was sicher nicht funktioniert, ist eine simple «semantische Annotation» von Wörtern. Ein Wort kann viele, sehr unterschiedliche Bedeutungen haben. Eine Bedeutung (= ein Begriff) kann durch unterschiedliche Wörter ausgedrückt werden. Wenn man Texte analysieren will, darf man nicht die einzelnen Wörter, sondern muss immer den Gesamtkontext ansehen. Nehmen wir das Wort «Kopf». Wir sprechen z.B. vom Kopf eines Briefes oder vom Kopf eines Unternehmens. Wir können nun den Kontext in unseren Begriff hineinnehmen, indem wir den Begriff <Kopf< mit anderen Begriffen verbinden. So gibt es einen <Körperteil<Kopf< und eine <Funktion<Kopf<.  Der Begriff links (<Körperteil<) sagt dann aus, von welchem Typ der Begriff rechts (<Kopf<) ist. Wir typisieren also. Wir suchen den semantischen Typ eines Begriffs und setzen ihn vor den Unterbegriff.

Konsequent komposite Datenelemente

Die Verwendung typisierter Begriffe ist nichts Neues. Wir gehen aber weiter und bilden ausgedehnte strukturierte Graphen, diese komplexen Graphen bilden dann die Basis unserer Arbeit. Das ist etwas ganz anderes als die Arbeit mit Wörtern. Die Begriffsmoleküle, die wir verwenden, sind solche Graphen, die eine ganz spezielle Struktur aufweisen, sodass sie sowohl für Menschen wie für Maschinen leicht und schnell lesbar sind. Die komposite Darstellung hat viele Vorteile, einer ist z.B. dass der kombinatorischen Explosion ganz einfach begegnet wird und so die Zahl der atomaren Begriffe und Regeln drastisch gekürzt werden kann. Durch die Typisierung und die Attribute können ähnliche Begriffe beliebig geschärft werden, wir können mit Molekülen dadurch sehr präzis «sprechen». Präzision und Transparenz der Repräsentation haben darüber hinaus viel damit zu tun, dass die spezielle Struktur der Graphen (Moleküle) direkt von der multifokalen Begriffsarchitektur abgeleitet ist (siehe im folgenden Punkt 2).

Punkt 2: Komplexe Begriffsarchitekturen verwenden

Begriffe sind in den Graphen (Begriffsmoleküle) über Relationen verbunden. Die oben genannte Typisierung ist eine solche Relation: Wenn der <Kopf< als ein <Körperteil< gesehen wird, dann ist er vom Typ <Körperteil< und es besteht eine ganz bestimmte Relation zwischen <Kopf< und <Körperteil<, nämlich eine sogenannte hierarchische oderIS-A‹-Relation – letzteres darum, weil man bei hierarchischen Relationen immer ‹IST-EIN› sagen kann, also in unserem Fall: der <Kopf< ist ein <Körperteil<.

Die Typisierung ist eine der beiden grundlegenden Relationen in der Semantik. Wir ordnen eine Anzahl Begriffe einem übergeordneten Begriff, also ihrem Typ zu. Dieser Typ ist natürlich genauso ein Begriff und er kann deshalb selber wieder typisiert werden. Dadurch entstehen hierarchische Ketten von ‹IS-A›-Relationen, mit zunehmender Spezifizierung, z.B. <Gegenstand<Möbel<Tisch<Küchentisch<. Wenn wir alle Ketten der untergeordneten Begriffe, die von einem Typ ausgehen, zusammenbinden, erhalten wir einen Baum. Dieser Baum ist der einfachste der vier Architekturtypen für die Anordnung von Begriffen.

Von dieser Baumstruktur gehen wir aus, müssen aber erkennen, dass eine blosse Baumarchitektur entscheidende Nachteile hat, die es verunmöglichen, damit wirklich präzis greifende Semantiken zu bauen. Wer sich für die verbesserten und komplexeren Architekturtypen und ihre Vor- und Nachteile interessiert, findet eine ausführliche Darstellung der vier Architekturtypen auf der Website von meditext.ch.

Bei den Begriffsmolekülen haben wir den gesamten Formalismus, d.h. die innere Struktur der Regeln und Moleküle selbst auf die komplexen Architekturen ausgerichtet. Das bietet viele Vorteile, denn die Begriffsmoleküle weisen jetzt in sich genau die gleiche Struktur auf wie die Achsen der multifokalen Begriffsarchitektur. Man kann die komplexen Faltungen der multifokalen Architektur als Gelände auffassen, mit den Dimensionen oder semantischen Freiheitsgraden als komplex verschachtelte Achsen. Die Begriffsmoleküle nun folgen diesen Achsen in ihrer eigenen inneren Struktur. Das macht das Rechnen mit den Molekülen so einfach. Mit simplen Hierarchiebäumen oder multidimensionalen Systemen würde das nicht funktionieren. Und ohne konsequent komposite Datenelemente, deren innere Struktur auf fast selbstverständliche Weise den Verzweigungen der komplexen Architektur folgt, auch nicht.

Punkt 3: Eine offene und flexible Logik (NMR) einbeziehen

Dieser Punkt ist für theoretisch vorbelastete Wissenschaftler möglicherweise der härteste. Denn die klassische Logik erscheint den meisten unverzichtbar und viele kluge Köpfe sind stolz auf ihre Kenntnisse darin. Klassische Logik ist in der Tat unverzichtbar – nur muss sie am richtigen Ort eingesetzt werden. Meine Erfahrung zeigt, dass wir im Bereich des NLP (Natural Language Processing) eine andere Logik brauchen, nämlich eine, die nicht monoton ist. Eine solche nichtmonotone Logik (NMR) erlaubt es, für das gleiche Resultat mit viel weniger Regeln in der Wissensbasis auszukommen. Die Wartung wird dadurch zusätzlich vereinfacht. Auch ist es möglich, das System ständig weiter zu entwickeln, weil es logisch offen bleibt. Ein logisch offenes System mag einen Mathematiker beunruhigen, die Erfahrung aber zeigt, dass ein NMR-System für die regelbasierte Erfassung des Sinns von frei formuliertem Text wesentlich besser funktioniert als ein monotones.

Fazit

Heute scheinen die regelbasierten Systeme im Vergleich zu den korpusbasierten im Hintertreffen zu sein. Dieser Eindruck täuscht aber und rührt daher, dass die meisten regelbasierten Systeme den Sprung in ein modernes System noch nicht vollzogen haben. Dadurch sind sie entweder:

  • nur für Aufgaben in kleinem und wohldefiniertem Fachgebiet anwendbar oder
  • sehr rigid und deshalb kaum einsetzbar oder
  • sie benötigen einen unrealistischen Ressourceneinsatz und werden unwartbar.

Wenn wir aber konsequent komposite Datenelemente und höhergradige Begriffsarchitekturen verwenden und bewusst darauf verzichten, monoton zu schliessen, kommen wir – für die entsprechenden Aufgaben – mit regelbasierten Systemen weiter als mit korpusbasierten.

Regelbasierte und korpusbasierte Systeme sind sehr unterschiedlich und je nach Aufgabe ist das eine oder das andere im Vorteil. Darauf werde ich in einem späteren Beitrag eingehen.


Dies ist ein Beitrag zum Thema künstliche Intelligenz (KI). Ein Folgebeitrag beschäftigt sich mit der aktuellen Verbreitung der beiden KI-Methoden.

Präzisierung der Herausforderungen an die regelbasierte KI

Die regelbasierte KI ist im Hintertreffen

Die Unterscheidung zwischen regelbasierter und korpusbasierter KI ist in mehrerer Hinsicht sinnvoll, denn die beiden Methoden funktionieren völlig unterschiedlich. Das bedeutet nicht nur, dass die Herausforderungen ganz andere sind, sondern in der Folge auch die Entwicklungsverläufe zeitlich nicht parallel erfolgen. Wenn heute von KI gesprochen wird, ist eigentlich nur die korpusbasierte gemeint, die regelbasierte scheint deutlich abgehängt zu sein.

Meines Erachtens hat das aber nur damit zu tun, dass die regelbasierte KI in eine Sackgasse gekommen ist, aus der sie erst herausfindet, wenn sie ihre spezifischen Herausforderungen richtig erkennt.  Deshalb sollen hier die Herausforderungen genauer beschrieben werden.

Übersicht über die Herausforderungen

Im Vorbeitrag habe ich vier Herausforderungen an die regelbasierte KI genannt. Die ersten beiden lassen sich nicht grundsätzlich verbessern. Es braucht Experten für die Regelerstellung und die müssen sowohl Experten für abstrakte Logik wie auch Experten des jeweiligen Fachgebietes sein. Daran lässt sich nicht viel ändern. Auch die zweite Herausforderung bleibt bestehen, das Finden solcher Experten bleibt ein Problem.

Besser steht es um die Herausforderungen drei und vier, nämlich um die grosse Zahl der nötigen Regeln und ihre Komplexität. Obwohl gerade diese beiden Herausforderungen scheinbar unveränderliche Hürden von beträchtlicher Höhe darstellen, können sie mit den nötigen Erkenntnissen einiges an Schrecken verlieren. Allerdings müssen beide Herausforderungen konsequent angegangen werden, und das heisst, dass wir einige liebgewordenen Gewohnheiten und Denkmuster über Bord werfen müssen. Das sehen wir uns jetzt genauer an.

Für die Regeln braucht es einen Raum und einen Kalkulus

Regelbasierte KI besteht aus zwei Dingen:

  • den Regeln, die eine Domain (Fachgebiet) in einem bestimmten Format beschreiben und
  • einem Algorithmus, der bestimmt, wann welche Regeln ausgeführt werden.

Um die Regeln zu bauen, brauchen wir einen Raum, der festlegt, aus welchen Elementen die Regeln bestehen können und dadurch auch, was innerhalb des Systems überhaupt ausgesagt werden kann. Ein solcher Raum besteht nicht von selber, sondern muss bewusst gestaltet werden. Und zweitens brauchen wir ein Kalkulus, d.h. einen Algorithmus, der festlegt, wie die so gebauten Regeln angewendet werden. Selbstverständlich können sowohl der Raum als auch der Kalkulus ganz unterschiedlich angelegt sein, und diese Unterschiede «machen den Unterschied», d.h. sie erlauben eine entscheidende Verbesserung der regelbasierten KI, allerdings um den Preis, dass liebgewordene Gewohnheiten über Bord geworfen werden müssen.

Drei Neuerungen

In den 90er Jahren haben wir in unserem Projekt Semfinder deshalb in Beides investiert, sowohl in die grundlegende Gestaltung des Begriffsraums wie auch in den Kalkulus. Wir haben unser regelbasiertes System auf der Grundlage folgender drei Neuerungen erstellt:

  • Datenelemente: Konsequent komposite Datenelemente (Begriffsmoleküle).
  • Raum: Multidimensional-multifokale Architektur.
  • Kalkulus: Non Monotonic Reasoning (NMR).

Diese drei Neuerungen wirken zusammen und erlauben es , mit weniger Datenelementen und Regeln mehr Situationen präziser abzufangen. Durch die multifokale Architektur kann besser, d.h. situationsgerechter und detaillierter modelliert werden. Da gleichzeitig die Zahl der Elemente und Regeln abnimmt, verbessert sich die Übersicht und Wartbarkeit. Durch die drei Neuerungen gelingt es, die Grenzen zu sprengen, die regelbasierten Systemen bisher bezüglich Umfang, Präzision und Wartbarkeit gesetzt waren.


Dies ist ein Beitrag zum Thema künstliche Intelligenz (KI). Im Folgebeitrag werden wir untersuchen, wie die drei oben genannten Neuerungen wirken.

Die Herausforderungen an die regelbasierte KI

Regelbasiert im Vergleich zu korpusbasiert

Die korpusbasierte KI (Typus «Panzer», siehe KI-Einstiegsbeitrag) konnte ihre Schwächen erfolgreich überwinden (siehe Vorbeitrag). Dafür reichte eine Kombination von «Brute Force» (verbesserte Hardware) und einem idealen Opportunitätsfenster, als nämlich während der superheissen Expansionsphase des Internets Firmen wie Google, Amazon, Facebook und viele andere grosse Datenmengen sammeln und damit ihre Datenkorpora füttern konnten. Und mit einem ausreichend grossen Datenkorpus steht und fällt die korpusbasierte KI.

für die regelbasierte KI aber reichte «Brute Force» nicht aus. Es nützte auch nichts, viele Daten zu sammeln, da für den Regelbau die Daten auch organisiert werden müssen – und zwar grossenteils von Hand, also durch menschliche Fachexperten.

Herausforderung 1: Unterschiedliche Mentalitäten

Nicht alle Menschen sind gleichermassen davon fasziniert, Algorithmen zu bauen. Es braucht dazu eine besondere Art Abstraktionsfähigkeit, gepaart mit einer sehr gewissenhaften  Ader – jedenfalls was die Abstraktionen betrifft.  Jeder noch so kleine Fehler im Regelbau wird sich unweigerlich auswirken. Mathematiker verfügen sehr ausgeprägt über diese hier gefragte konsequent-gewissenhafte Mentalität, aber auch Naturwissenschaftler und Ingenieure zeichnen sich vorteilhaft dadurch aus. Natürlich müssen auch Buchhalter gewissenhaft sein, für den Regelbau der KI ist aber zusätzlich noch Kreativität gefragt.

Verkäufer, Künstler und Ärzte hingegen arbeiten in anderen Bereichen. Oft ist Abstraktion eher nebensächlich, und das Konkrete ist wichtig. Auch das Einfühlungsvermögen in andere Menschen kann sehr wichtig sein. Oder man muss schnell und präzis handeln können, z.B. als Chirurg. Diese Eigenschaften sind alle sehr wertvoll, für den Algorithmenbau aber weniger wichtig.

Das ist für die regelbasierte KI ein Problem. Denn für den Regelbau braucht es sowohl die Fähigkeiten des einen und als auch das Wissen des anderen Lagers: Es braucht die Mentalität, die einen guten Algorithmiker ausmacht, gepaart mit der Denkweise und dem Wissen des Fachgebiets, auf das sich die Regeln beziehen. Eine solche Kombination des Fachgebietswissens mit dem Talent zur Abstraktion ist selten zu finden. In den Krankenhäusern, in denen ich gearbeitet habe, waren die beiden Kulturen in ihrer Getrenntheit ganz klar ersichtlich. Hier die Ärzte, die Computer höchstens für die Rechnungsstellung oder für gewisse teure technische Apparate akzeptierten, die Informatik allgemein aber gering schätzten, und dort die Informatiker, die keine Ahnung davon hatten, was die Ärzte taten und wovon sie überhaupt sprachen. Die beiden Lager gingen sich meist einfach aus dem Weg. Selbstverständlich war es da nihct verwunderlich, dass die für die Medizin gebauten Expertensysteme meist nur für ganz kleine Teilgebiete funktionierten, wenn sie nicht im blossen Experimentierstadium verharrten.

Herausforderung 2: Wo finde ich die Experten?

Experten, die kreativ und in den beiden Mentalitätslagern gleichermassen zuhause sind, sind selbstverständlich schwer zu finden. Erschwerend kommt hinzu: Es gibt kaum Ausbildungsstätten für diese Art Experten. Realistisch sind auch folgende Fragen: Wo sind die Ausbildner, die sich mit den aktuellen Herausforderungen auskennen? Welche Diplome gelten wofür? Und wie evaluiert ein Geldgeber auf diesem neuen Gebiet, ob die eingesetzten Experten taugen und die Projektrichtung stimmt?

Herausforderung 3: Schiere Menge an nötigen Detailregeln

Dass eine grosse Menge an Detailwissen nötig ist, um in einer Realsituation sinnvolle Schlüsse zu ziehen, war schon für die korpusbasierte KI eine Herausforderung. Denn erst mit wirklich grossen Korpora, d.h. dank des Internets und gesteigerter Computerleistung gelang es ihr, die riesige Menge an Detailwissen zu erfassen, das für jedes realistische Expertensystem eine der Basisvoraussetzungen ist.

Für die regelbasierte KI ist es aber besonders schwierig, die grosse Wissensmenge bereitzustellen, denn sie braucht für die Wissenserstellung Menschen, welche die grosse Wissensmenge von Hand in computergängige Regeln fassen. Das ist eine sehr zeitraubende Arbeit, die zudem die schwierig zu findenden menschlichen Fachexperten erfordert, die den oben genannten Herausforderungen 1 und 2 genügen.

In dieser Situation stellt sich die Frage, wie grössere und funktionierende Regelsysteme überhaupt gebaut werden können? Gibt es eventuell Möglichkeiten, den Bau der Regelsysteme zu vereinfachen?

Herausforderung 4: Komplexität

Wer je versucht hat, ein Fachgebiet wirklich mit Regeln zu unterfüttern, merkt, dass er schnell an komplexe Fragen stösst, für die er in der Literatur keine Lösungen findet. In meinem Gebiet des Natural Language Processing (NLP) ist das offensichtlich. Die Komplexität ist hier nicht zu übersehen. Deshalb muss unbedingt auf sie eingegangen werden. Mit anderen Worten: Das Prinzip Hoffnung reicht nicht, sondern die Komplexität muss thematisiert und intensiv studiert werden.

Was Komplexität bedeutet, und wie man ihr begegnen kann, darauf möchte ich in einem weiteren Beitrag eingehen. Selbstverständlich darf dabei die Komplexität nicht zu einer übermässigen Regelvermehrung führen (siehe Herausforderung 3). Die Frage, die sich für die regelbasierte KI stellt, ist deshalb: Wie kann ein Regelsystem gebaut werden, das Detailhaltigkeit und Komplexität berücksichtigt, dabei aber einfach und übersichtlich bleibt?

Die gute Botschaft ist: Auf diese Frage gibt es durchaus Antworten.


Dies ist ein Beitrag zum Thema künstliche Intelligenz (KI). In einem Folgebeitrag werden die Herausforderungen präzisiert.