Archiv der Kategorie: Logik

Menupunkt: Logik


Ist Logik statisch oder dynamisch?

Viele denken, dass unsere abendländische Logik perfekt sei. Sie hat sich über viele Jahrhunderte um das Beweisen bemüht, angefangen von den Syllogismen des Aristoteles über die Gottesbeweise der mittelalterlichen Scholastik bis hin zur First-Order-Logic der Mathematik in jüngerer Zeit.  Diese Systeme sind trotz ihres reifen Entwicklungsgrades nicht ausreichend, um die dynamischen Prozesse des Denkens abzubilden.

Dies fängt bereits mit dem einfachen IF-THEN an, das in den Syllogismen und der First-Order-Logic aus Prinzip immer statisch ist. Eine dynamische Logik ist jedoch unabdingbar, um Denkprozesse präzis zu beschreiben.


Die klassische Logik ist monoton. Um die Denkprozesse abzubilden bedarf es aber einer nicht-monotonen, d.h. dynamischen Logik:

  • NMR (Non-Monotonic-Reasoning)

Selbstreferentialität bricht klassische Logik

Ein Problem der konventionellen Logik liegt in der Schlaufe der Selbstreferentialität (Barbierparadox, Gödel, Spencer-Brown).

Dazu habe ich 2015 zwei Texte geschrieben:

Selbstreferentialität bricht den Zeitfluss und kann zu den klassischen Paradoxen führen:


Das Bit hat keine Bedeutung

Das Bit ist die Basis der IT

Unsere Informationstechnologie baut auf dem Bit auf. Alles, was in unseren Computern geschieht, basiert auf diesem kleinsten Basiselement der Information. Wenn Sie gefragt werden, was ein einzelnes Bit bedeutet, werden Sie möglicherweise antworten, dass das Bit zwei Zustände einnehmen kann, von denen der eine 0 ist und der andere 1 bedeutet. Auf diese Weise können wir bekanntlich beliebig hohe Zahlen schreiben, wir müssen einfach genügend Bits hintereinander reihen.

Aber stimmt das auch? Bedeutet wirklich der eine Zustand im Bit 0 und der andere 1? Können die beiden Zustände nicht auch ganz andere Bedeutungen annehmen?

Dem Bit können beliebige Bedeutungen zugeschrieben werden

In der Tat können die beiden Zustände des Bits irgendeine Bedeutung einnehmen. Beliebt sind neben 0/1 auch Wahr/Falsch, Ja/Nein, Positiv/Negativ, aber im Prinzip und in der Praxis können dem Bit von aussen irgendwelche Bedeutungen zugeschrieben werden. Selbstverständlich sind auch Umkehrungen erlaubt, also neben 0/1 auch 1/0.

Die Zuschreibung der Bedeutung des Bits erfolgt von aussen

Ob das konkrete Bit im Computerprogramm nun 0/1 oder 1/0 oder irgendetwas anderes bedeutet, spielt selbstverständlich eine entscheidende Rolle. Die Bedeutung liegt aber nicht im Bit selber, denn das Bit ist eine höchst radikale Abstraktion. Es sagt nur aus, dass zwei Zustände existieren und welcher zur Laufzeit gerade aktuell ist. Was die beiden aber bedeuten, ist eine ganz andere Geschichte, die über das einzelne Bit weit hinausgeht. In einem Computerprogramm kann z.B. deklariert werden, dass das Bit dem Wertepaar TRUE/FALSE entspricht. Das gleiche Bit kann aber auch mit anderen Bits zusammen als Teil einer Zahl oder eines Buchstabencodes interpretiert werden – sehr unterschiedliche Bedeutungen also, je nach Programmkontext.

Digitaler und analoger Kontext

Das Softwareprogramm ist der digitale Kontext und er besteht selbstverständlich aus weiteren Bits. Diese Bits aus der Umgebung können verwendet werden, um die Bedeutung eines Bits zu bestimmen. Nehmen wir an, unser Bit sei mit weiteren Bits daran beteiligt, den Buchstaben ‹f› zu definieren. Unser Programm sei auch so organisiert, dass dieser Buchstabe in eine Tabelle zu stehen kommt, und zwar in eine Spalte, die mit ‹Geschlecht› überschrieben ist. All dies ist in der Software klar geregelt. Legt nun die Software die Bedeutung des Bits fest? Sicher sind Sie nicht überrascht, wenn das ‹f› die Bedeutung ‹feminin› hat und die Tabelle vermutlich verschiedene Personen auflistet, die männlich oder weiblich (f) sein können. Was aber bedeuten männlich und weiblich? Erst in der analogen Welt bekommen diese Ausdrücke eine Bedeutung.

Das Bit, die perfekte Abstraktion

Das Bit stellt in der Tat den Endpunkt einer radikalen Informationsabstraktion dar. Die Information ist im einzelnen Bit soweit auf das absolut Elementare reduziert, dass die Information über die Bedeutung aus dem Bit vollständig herausgenommen worden ist. Das Bit sagt nur noch aus, dass zwei – ausserhalb des Bits beschriebene – Zustände existieren und welcher der beiden zu einem bestimmten Zeitpunkt aktuell ist.

Diese radikale Abstraktion ist gewollt und in einer Software sehr sinnvoll. Denn so kann das gleiche physische Bit im Chip des Computer immer wieder neu verwendet werden, einmal als TRUE/FALSE-Paar, einmal als 0/1, einmal als JA/NEIN usw. Das ist sehr praktisch und ermöglicht dem Computer, beliebige Aufgaben zu erfüllen. Die dadurch gewonnene perfekte Abstraktion nimmt dem einzelnen Bit aber gleichzeitig seine individuelle Bedeutung und diese kann und muss dann für jede Anwendung von aussen neu gegeben werden.

Der unendliche Regress

Wenn die Bedeutung des Bits von aussen gegeben wird, dann können natürlich andere Bits diese Aufgabe übernehmen und die Bedeutung des einen Bits definieren. Dazu müssen aber diese äusseren Bits die entsprechende Wirkkraft haben, die natürlich nicht ohne deren eigenen Bedeutung zu haben ist. Und selbstverständlich liegen die Bedeutungen der Bits dieses äusseren Kreises nicht in diesen Bits selber – aus den gleichen Gründen wie oben – sondern sie müssen von aussen, d.h. von einem weiteren Kreis von Bits gegeben werden. Die Bits dieses zweiten äusseren Kreises müssen in einem weiteren Kreis erklärt werden und die Bedeutung der Bits dieses weiteren Kreises wiederum von einem noch äusseren  …  Selbstverständlich kommt dieser Prozess der Bedeutungszuordnung in einer Welt von Bits nie an sein Ende, der Regress ist unendlich.

Erst im Analogen endet der unendliche Regress

Erst wenn wir aus dem Programm in die Realwelt heraustreten, können wir den Informationen aus dem Computer wirkliche eine Bedeutung zuordnen.

Selektiver und deskriptiver Informationsgehalt

Wenn wir das oben Beschriebene rekapitulieren können wir im Bit Folgendes unterscheiden:

Der deskriptive Informationsgehalt sagt aus, was das Bit bedeutet, er beschreibt die beiden Zustände des Bits, sagt aber nicht aus, welcher Zustand aktuell gewählt ist.  Der selektive Informationsgehalt andererseits sagt aus, welcher der beiden Zustände aktuell ist, weiss aber nichts über die Eigenschaften der beiden Zustände, und somit auch nichts über ihre jeweilige Bedeutung.

Die Unterscheidung zwischen selektivem und deskriptivem Informationsgehalt wurden vom britischen Radar-Pionier und Informationswissenschaftler Donald MacKay in den 40-er Jahren des letzten Jahrhunderts geprägt, praktisch gleichzeitig mit der ersten Erwähnung und Beschreibung des klassischen Bits durch den Amerikaner C. A. Shannon. MacKay hat auch bereits sehr klar erkannt, dass das Bit von Shannon nur einen selektiven Informationsgehalt trägt und der deskriptive von aussen gegeben werden muss.

Erstaunlicherweise ist diese Erkenntnis von MacKay heute beinahe in Vergessenheit geraten.


Fazit:

1. Das Bit liefert den selektiven Informationsgehalt.
2. Der deskriptive Informationsgehalt liegt nicht im Bit.
3. Ein isoliertes Bit trägt allein keine Bedeutung.
4. Die Bedeutung des Bits wird stets von ausserhalb des Bits gegeben.
5. Dadurch wird ein unendlicher Regress initiiert.
6. Erst im Analogen endet der unendliche Regress.


Die Zahl der Bits misst die Quantität von Information -> Übersichtsseite Informationstheorie


Die Unterscheidung (nach Spencer-Brown) und das Bit


Fortsetzung von Paradoxe Logikkerne (2)


Geschichte

Bevor wir die Konsequenzen der Distinction von Georg Spencer-Brown (GSB) auf Logik, Physik, Biologie und Philosophie ansehen, ist es hilfreich, sie mit einer anderen, viel bekannteren Grundform zu vergleichen, nämlich dem Bit. Das ermöglich uns, die Natur von GSB’s distinction und das Revolutionäre seiner Innovation besser zu verstehen.

Bits und Forms können beide als Basis-Bausteine für die Informationsverarbeitung angesehen werden. Software-Strukturen bauen technisch auf Bits auf, doch die Forms von GSB («draw a distinction») sind genauso einfach, grundlegend und dabei verblüffend ähnlich. Trotzdem gibt es charakteristische Unterschiede.

     

Abb. 1: Form und Bit zeigen Ähnlichkeit und Unterschiede

Sowohl Bit wie die Spencer-Brown Form sind in der Frühphase der Informatik entstanden, also relativ neue Vorstellung. Das Bit wurde von C.A. Shannon 1948 beschrieben, die Distinction von Georg Spencer-Brown (GSB) in seinem Buch «Laws of Form» im Jahr 1969, also nur ca. 20 Jahre später. 1969 fiel in die hohe Zeit der Hippie-Bewegung und GSB wurde in der Tat in Kaliforniens Hippie-Hochburg Esalen hoch willkommen geheissen. Das hat möglicherweise ein schlechtes Licht auf ihn geworfen und den etablierten Wissenschaftsbetrieb von ihm abgehalten. Während das Bit Kaliforniens entstehende Informations-High-Tech-Bewegung beflügelte, wurde Spencer-Browns mathematisch-logische Revolution von der Scientific Community geflissentlich ignoriert. Es ist Zeit, diesen Misstand zu überwinden.


Gemeinsamkeiten von Distinction und Bit

Beide, die Form und das Bit, beziehen sich auf Information. Beide sind elementare Abstraktionen und können deshalb als Grundbausteine von Information gesehen werden.

Diese Gemeinsamkeit zeigt sich darin, dass beide einen einzigen Aktionschritt bezeichnen – wenn auch einen unterschiedlichen – und beide dieser Aktion eine maximal reduzierte Anzahl von Ergebnissen zuordnen, nämlich genau zwei.

Tabelle 1: Sowohl Bit wie Distinction beinhalten
je eine Aktion und zwei mögliche Resultate (Outcomes)

Genau eine Aktion, genau zwei potentielle Ergebnisse

Die Aktion der Distinction ist die Distinction, also die Unterscheidung, die Aktion des Bits ist die Auswahl, also die Selection. Beide Aktionen sind als Informationshandlungen zu sehen und als solche fundamental, d.h. nicht weiter reduzierbar. Das Bit enthält in sich nicht weitere Bits, die Distinktion enthält in sich nicht weitere Distinktionen. Natürlich gibt es in der Umgebung des Bits weitere Bits und in der Umgebung einer Distinktion weitere Distinktionen. Beide Aktionen sind aber als fundamentale Informationshandlungen zu sehen. Ihre Fundamentalität wird unterstrichen durch die kleinst mögliche Zahl ihrer Ergebnisse, nämlich zwei. Die Zahl der Ergebnisse kann nicht kleiner sein, denn eine Unterscheidung von 1 ist keine Unterscheidung und eine Selektion aus 1 ist keine Selektion. Beides ist erst möglich, wenn es zwei potentielle Ergebnisse gibt.

Sowohl Distinction wie Bit sind somit unteilbare Informationshandlungen von radikaler, nicht zu steigernder Simplizität.

Trotzdem sind sie nicht gleich und auch nicht austauschbar. Sie ergänzen sich.

Während das Bit seit 1948 einen technischen Höhenflug angetreten ist, ist seine Voraussetzung, die Unterscheidung (distinction), ungenannt im Hintergrund geblieben. Umso mehr lohnt es sich, sie heute in den Vordergrund zu rücken und so ein neues Licht auf die Grundlagen von Mathematik, Logik, Natur- und Geisteswissenschaften zu werfen.


Unterschiede

Informationsgehalt und die Entropie nach Shannon

Beide, Form und Bit, beziehen sich auf Information. In der Physik wird der quantitative Gehalt an Information als Entropie bezeichnet.

Der Informationsgehalt, wenn ein Bit gesetzt, bzw. eine Unterscheidung getroffen wird, ist auf den ersten Blick in beiden Fällen gleich gross, nämlich die Information, die zwischen zwei Zuständen unterscheidet. Das ist beim Bit ganz klar so. Sein Informationsgehalt ist, wie Shannon gezeigt hat, log2(2) = 1. Shannon hat diesen dimensionslosen Wert als 1 Bit bezeichnet. Das Bit enthält somit – nicht ganz überraschend – die Information von einem Bit. So ist es von Shannon definiert worden.

Das Bit und die Entropie

Das Bit misst nichts anderes als die Entropie. Der Begriff Entropie stammt ursprünglich aus der Wärmelehre und dient dazu, das Verhalten von Wärmemaschinen zu berechnen. Entropie ist der Partnerbegriff der Energie und gilt – wie der Begriff Energie – überall in der Physik, nicht nur in der Wärmelehre.

Was ist Entropie?

Die Entropie misst also – seit Shannon – den Informationsgehalt. Wenn ich etwas nicht weiss und es anschliessend erfahre, fliesst Entropie als Information. Wenn – bevor ich weiss, was gilt – zwei Zustände möglich sind, dann erhalte ich, wenn ich erfahre, welcher der beiden Zustände zutrifft, eine Information mit dem quantitativen Wert 1 Bit.

Wenn mehr als zwei Zustände möglich sind, steigt die Zahl der Bits logarithmisch mit der Zahl der möglichen Zustände; so braucht es drei 2-er Wahlen um aus 8 Möglichkeiten die zutreffende herauszufinden, also genau drei Bits. Die Zahl der Wahlen (Bits) verhält sich zur Zahl der Auswahlmöglichkeiten wie das Beispiel zeigt, logarithmisch.

Zweierwahl = 1 Bit = log2(2).
Viererwahl = 2 Bit = log2(4)
Achterwahl = 3 Bit = log2(8)

Der Informationsgehalt eines einzigen Bits ist stets der Informationsgehalt einer einzigen Zweierwahl, also log2(2) = 1. Das Bit als physikalische Grösse ist dimensionslos, also eine reine Zahl. Das passt, weil die Information über die Wahl neutral ist, und nicht etwa eine Länge, ein Gewicht, eine Energie oder eine Temperatur. So viel zum Bit, der technischen Einheit der des quantitativen Informationsgehaltes. Wie verhält es sich nun bei der anderen Grundeinheit von Information, der Form von Spencer-Brown?

Der Informationsgehalt der Form

Der Informationsgehalt des Bits ist genau 1, wenn die beiden Outcomes der Selektion genau gleich wahrscheinlich sind. Sobald von zwei Zuständen einer unwahrscheinlicher ist, ist die Information grösser, wenn er, trotz der geringeren Vorwahrscheinlichkeit, gewählt wird. Je unwahrscheinlicher er ist, umso grösser wird die Information, wenn die Wahl auf ihn fällt. Nur beim klassischen Bit ist die Wahrscheinlichkeit für beide Zustände per Definition gleich gross.

Das ist ganz anders bei der Form der Unterscheidung von Spencer-Brown. Das Entscheidende dabei ist der ‹unmarked space›. Die Distinktion unterscheidet etwas vom Rest und markiert es. Der Rest, also alles andere bleibt unmarkiert, Spencer-Brown nennt es den ‹unmarked space›.

Wir können und müssen nun davon ausgehen, dass der Rest, das Unmarkierte, viel grösser ist, und die Wahrscheinlichkeit seines Eintretens viel grösser ist, als die Wahrscheinlichkeit, dass das Markierte eintrifft. Der Informationsgehalt des Markierten ist deshalb immer grösser als 1.

Natürlich geht es bei der Unterscheidung um das Markierte. Deshalb wird für den Informationsgehalt der Unterscheidung das Markierte und nicht das Unmarkierte gerechnet. Wie gross ist nun der Raum des Unmarkierten? Wir tun gut daran, davon ausgehen, dass er unendlich ist. Ich kann nie wissen, was ich alles nicht weiss.

Der Unterschied im Informationsgehalt, gemessen als Entropie, ist der erste Unterschied zwischen Bit und Unterscheidung. Beim Bit ist der Informationsgehalt, d.h. die Entropie genau 1, bei der Unterscheidung kommt es darauf an, wie gross der Unmarkierte Raum gesehen wird, er ist aber stets grösser als der markierte und die Entropie der Unterscheidung ist deshalb aus mathematischen Gründen stets grösser als 1.

Geschlossenheit und Offenheit

Die Abb. 1 oben zeigt den wichtigsten Unterschied von Distinktion und Bit, nämlich ihre Grenzen gegen aussen. Diese ist beim Bit klar definiert.

Die Bedeutungen im einem Bit

Das Bit enthält zwei Zustände, von denen einer aktiviert ist, der andere nicht. Ausser diesen beiden Zuständen ist nichts im Bit zu sehen und alle andere Information befindet sich ausserhalb des Bits. Nicht einmal die Bedeutungen der beiden Zustände sind definiert. Sie können 0 und 1, Wahr undd Falsch, Positiv und Negativ oder jedes andere Paar bedeuten, das sich gegenseitig ausschliesst. Das Bit selber enthält diese Bedeutungen nicht, nur die Information, welcher der beiden Zustände gewählt wurde. Die Bedeutung der beiden Zuständen wird ausserhalb des Bits geregelt und von ausserhalb zugewiesen. Diese Neutralität des Bits ist seine Stärke. Es kann jede Bedeutung annehmen und ist deshalb überall einsetzbar, wo Information technisch prozessiert wird.

Die Bedeutung in einer Unterscheidung

Ganz anders ist das bei der Unterscheidung. Hier wird die Bedeutung markiert. Dazu wird das Innere der Unterscheidung vom Äusseren unterschieden. Das Äussere aber ist offen und es gibt nichts, was nicht dazu gehört. Der ‹unmarked space› ist im Prinzip unendlich. Eine Grenze wird definiert, doch sie ist die Unterscheidung selber. Deshalb kann sich die Unterscheidung nicht wirklich gegen aussen abgrenzen, im Gegensatz zum Bit.

Mit anderen Worten:

→  Das Bit ist geschlossen, die Unterscheidung nicht.

Unterschiede zwischen Unterscheidung und Bit


Tabelle 2: Unterschiede ziwschen Distinction (Form) und Bit

Die Unterschiede haben nun einige interessante Konsequenzen.


Konsequenzen

Bits und Offenheit in einer Software (Beispiel NLP)

Das Bit hat durch seine definierte und simple Entropie den technologischen Vorteil der einfachen Handhabbarkeit, was wir uns in der Software-Industrie zu Nutze machen. Die Forms hingegen sind durch ihre Offenheit realitätsgerechter. Für unsere konkrete Aufgabe der Interpretation von medizinischen Texten stiessen wir deshalb auf die Notwendigket, die Offenheit auch in der Bitwelt der technischen Software durch bestimmte Prinzipien einzuführen. Stichworte dazu sind:

  1. Einführung eines handelnden Subjekts, das den Input nach eigenen Internen Regeln bewertet,
  2. Arbeiten mit wechselnden Ontologien und Klassifikationen,
  3. Abkehr von der klassischen, d.h. statischen und monotonen Logik zu einer nicht-monotonen Logik,
  4. Integration der Zeit als Logikelement (nicht nur als Variable).

Mehr zum Thema Information -> Übersichtsseite Informationstheorie


 

Paradoxe Logikkerne (Teil 2)

Dieser Beitrag setzt Paradoxe Logikkerne (Teil 1) fort


«Draw a Distinction»

Mit diesen Worten führt Spencer-Brown den elementaren Baustein seiner formalen Logik ein: «Draw a Distinction» – «Zieh eine Unterscheidung». Abbildung 1 zeigt dieses sehr einfache Element der Unterscheidung oder Distinction, den formalen Baustein von Spencer-Browns Logik:

Abb 1: Die Form der Unterscheidung von Spencer-Brown

Eine extreme Abstraktion

In der Tat besteht seine Logik ausschliesslich aus diesem Baustein. Spencer-Brown ist damit eine Abstraktion gelungen, die abstrakter ist als alles, was Mathematiker und Logiker bisher gefunden hatten.

Was ist mit dieser Form nun gemeint? Spencer-Brown zielt auf einen elementaren Prozess, nämlich das ‹Ziehen einer Unterscheidung›. Dieser elementare Prozess teilt nun die Welt in zwei Teile, nämlich den Teil, der innerhalb der Unterscheidung liegt, und den Teil ausserhalb.


Abb. 2: Visualisierung der Unterscheidung

Die Teilung der Welt

Abbildung 2 zeigt, was das formale Element von Abb 1 meint: eine Teilung der Welt in das Unterschiedene (inside) und alles andere (outside). Der Winkel von Abb. 1 wird also – gedanklich – zum Kreis, der alles einschliesst, was gemeint, also unterschieden («draw a distinction») ist.

Die Winkelform von Abb. 1 meint also den Zirkel von Abb. 2, der alles umfasst, was gemeint ist.

Perfekte Beinhaltung

Weshalb aber zeichnet Spencer-Brown seinen elementaren Baustein als offenen Winkel und nicht als geschlossenen Kreis, obwohl er die Geschlossenheit meint, indem er ausdrücklich sagt: «Distinction is perfect continence», der Unterscheidung also eine perfekte Beinhaltung zuweist. Dass er trotzdem die Beinhaltung als Winkel zeigt, wird später klar werden, und sich als eine von Spencer-Browns genialen Entscheidungen erweisen. (mehr dazu im iommenden Beitrag «Imaginärer Logikwert»)

Unterscheidung von Markiert und Unmarkiert

Zudem ist es möglich, die Innenseite und die Aussenseite zu benennen, als den markierten (m=marked) und den unmarkierten (u=unmarked) Raum und diese Benennungen später in grösseren Kombination von Unterscheidungen zu verwenden.

Abb. 3: Marked (m) und unmarked (u) space

Kombinatierte Unterscheidungen

​​Um den Baustein in grösseren Logikaussagen zu verwenden, kann er nun auf verschiedene Weisen zusammengestellt werden.

Abb. 4: Drei kombinierte Formen der Unterscheidung

Abbildung 4 zeigt, wie Unterscheidungen auf zwei Arten miteinander kombiniert werden können, entweder als Aufzählung (seriell) oder als Etagierung, indem über Unterscheidungen weitere Unterscheidungen gestellt werden. Spencer Brown arbeitet mit diesen Kombinationen und leitet – ganz Mathematiker – verschiedene Schlüsse und Beweise aus wenigen Axiomen und Kanons ab. Er baut auf diese Weise ein eigenes formales mathematisch-logisches Regelwerk auf. Die Ableitungen und Beweise müssen uns hier nicht vordringlich interessieren, sie zeigen aber, wie sorgfältig und mathematisch-penibel Spencer-Brown seinen Formalismus entwickelt.

​Re-Entry

Das Re-Entry, der Wiedereintritt ist nun das, was uns zum Paradox führt. Es ist nun in der Tat so, dass Spencer-Browns Formalismus es möglich macht, den Formalismus echter Paradoxe, wie z.B des Barbierparadoxes auf ganz einfache Weise zu zeichnen. Das Re-Entry wirkt wie ein leuchtender Edelstein (sorry für die poetische Ausdrucksweise), der in logischen Netzen eine ganz spezielle Funktion übernimmt, nämlich die Verknüpfung von zwei logischen Ebenen, einer Basisebene und ihrer Metaebene.

Der Trick dabei ist, dass auf beiden Ebenen die gleiche Unterscheidung getroffen wird. Dass es sich also um die gleiche Unterscheidung handelt, aber auf zwei Ebenen, und dass sich diese eine Unterscheidung auf sich selber bezieht, von der einen Ebene auf die andere, von der Metaebene auf die Basisebene. Das ist die Form der Paradoxie.

Beispiel Barbierparadox

Wir können nun das Barbierparadox mit Hilfe der Form von Spencer-Brown notieren:

Abb. 5: Unterscheidung der Männer des Dorfes, die
sich selber (S) oder nicht selber (N) rasieren

Abb. 6: Notation von Abb. 5 als perfekte Beinhaltung

Abb. 5 und Abb. 6 zeigen das gleiche, nämlich die Unterscheidung der Männer des Dorfes in solche, die sich selber rasieren und die anderen, die das nicht tun.

Wie kommt nun der Barbier hinein? Nehmen wir an, er ist eben aufgestanden und noch unrasiert. Dann gehört er zur Innenseite der Unterscheidung, also zur Gruppe der unrasierten Männer N. Kein Problem für ihn, er rasiert sich schnell, frühstückt und geht dann an die Arbeit. Jetzt gehört er zu den Männern S, die sich selber rasieren, er muss sich also nicht mehr rasieren. Das Problem stellt sich erst am nächsten Morgen. Jetzt gehört er ja zu den Männern, die sich selber rasieren – also muss er sich nicht rasieren. Unrasiert, wie er ist, muss er sich aber jetzt rasieren. Sobald er sich aber rasiert, gehört er zur Gruppe der Selberrasierer, muss sich also nicht rasieren. So wechselt der Barbier von einer Gruppe in die andere. Es stellt sich das typische Oszillieren des Barbierparadoxes – und auch aller anderen echten Paradoxien ein, die alle oszillieren.

Wie entsteht das Paradox?

Abb. 7: Der Barbier (B) rasiert alle Männer, die sich
nicht sel
ber rasieren (N)

Abb. 7 zeigt als Basis die Unterscheidung der Männer N (rot)  und S (blau). Das ist die Basisebene. Nun kommt der Barbier (B) hinein. Auf einer logischen Metaebene wird ausgesagt, dass er die Männer N rasiert, in Abb. 7 durch den Pfeil symbolisiert.

Das Paradox entsteht zwischen der Basis- und der Metaebene. Dann nämlich, wenn gefragt wird, ob der Barbier, der ja auch ein Mann des Dorfes ist, zur Menge N oder zur Menge S gehört. Mit anderen Worten:

→ Ist  B  ein  N  oder ein  S ?

​Wenn B ein N ist, dann rasiert er sich (Abb. 7). Dadurch wird er zu einem S, also rasiert er sich nicht. Dadurch wird er zum N und rasiert sich. Das ist das Paradox und seine Oszillation.

Wie entsteht sie? Indem die beiden Ebenen verknüpft werden. Der Barbier ist ein Element der Metaebene, aber gleichzeitig ein Element der Basisebene. Der Barbier B ist auf der Metaebene ein handelndes Subjekt, auf der Basisebene aber ein Objekt. Die beiden Ebenen sind verknüpft über eine einzige Unterscheidung, doch B ist einmal Subjekt und sieht die Unterscheidung von aussen, doch gleichzeitig ist er auch ein Objekt dieser Unterscheidung, und wird dadurch als N oder S markiert. Das ist das Re-Entry. 

Das Re-Entry ist die logische Form der Paradoxie. Spencer-Browns Leistung besteht darin, dass er diese Form radikal einfach darstellt und sie formal maximal abstrahiert. Sie reduziert sich auf eine einzige Unterscheidung, die auf zwei Ebenen gelesen wird, einmal grundsätzlich (B ist N oder S) und dann als Re-Entry, wenn überlegt wird, ob B sich selber rasiert.

Das Paradox entsteht durch das Re-Entry plus eine Negation: Er rasiert die Männer, die sich nicht selber rasieren. Re-Entry und Negation gehört zwingend dazu, um ein echtes Paradox zu generieren. Sie lassen sich bei allen echten Paradoxien nachweisen, beim Barbierparadox, beim Lügnerparadox, beim Russelparadox usw.

Der Kern von jedem echten Paradox

Georg Spencer-Browns Leistung besteht darin, dass er das Paradox auf seinen essentiellen formalen Kern reduziert hat:

→ Eine (einzige) Unterscheidung mit Re-Entry und Negation.

Dieser Kern kann in jedem echten Paradox gefunden werden. Spencer-Brown’s Entdeckung von Unterscheidung und Re-Entry hat nun weitrechende Konsequenzen bezüglich Logik, aber auch weit über die Logik hinaus.

Darauf will ich gerne eingehen. Als nächstes möchte ich aber die Distinction, d.h. die Unterscheidung von Spencer-Brown als Logikelement mit einem anderen Logikelement vergleichen, das Ihnen sicher bestens bekannt ist, nämlich dem Bit.

Fortsetzung:  Unterscheidung (nach Spencer-Brown) und Bit


Frühere Beiträge zur Selbstreferenzialität und zum Re-Entry:

Selbstreferentialität 1

Selbstreferentialität 2 (Paradoxie)

Die Drei-Welten-Theorie (Roger Penrose)


Selbstreferentialität bringt klassische logische Systeme wie FOL oder Boolsche Algebra zum Absturz.

Mehr zum Thema Logik -> Übersichtsseite Logik


Paradoxe Logikkerne (Teil 1)


Logik in Praxis und Theorie

Computerprogramme bestehen aus Algorithmen, d.h. aus Anweisungen, wie und in welcher Reihenfolge eine Eingabe zu bearbeiten ist. Algorithmen sind nichts anderes als angewandte Logik und ein Programmierer ist ein praktizierender Logiker.

Doch Logik ist ein weiter Begriff. Ganz eng gefasst, ist Logik ein Teil der Mathematik, ganz weit verstanden, ist Logik alles, was mit Denken zu tun hat. Diese beiden Pole zeigen einen deutlichen Kontrast: Die Logik der Mathematik ist geschlossen und wohldefiniert, die Logik des Denkens hingegen entzieht sich gern der präzisen Beobachtung: Wie komme ich auf einen bestimmten Gedanken? Wie verbinde ich meine Gedanken beim Denken? Und überhaupt: Was habe ich eben gedacht? Während die mathematische Logik mit klaren Begriffen und Regeln funktioniert, explizit und objektiv beschreibbar, ist die Logik des Denkens schwerer fassbar. Gibt es überhaupt Regeln des richtigen Denkens, so wie es in der mathematischen Logik Regeln dafür gibt, auf richtige Weise Schlüsse zu ziehen?

Wenn ich in diesen Unterschied zwischen mathematischer Logik und der Logik des Denkens eintauche, dann fällt mir etwas sofort auf: Das Nachdenken über mein Denken entzieht sich der Objektivität. Das ist bei der Mathematik nicht so. Mathematiker versuchen jeden kleinsten Denkschritt abzusichern, auf eine Weise, die klar und objektiv und für jeden nachvollziehbar, sobald er die mathematische Sprache versteht, ganz unabhängig von seiner Person: Das Subjekt des Mathematiker bleibt draussen.

Ganz anders ist es beim Denken. Wenn ich versuche, einen Gedanken zu beschreiben, den ich im Kopf habe, ist das mein persönlicher Gedanken, ein subjektives Geschehen, das sich primär nur meinem eigenen Denken zeigt und durch Wörter oder mathematische Formeln nur beschränkt ausgedrückt werden kann.

Doch genau dieser Widerstand reizt mich. Schliesslich möchte ich ‹korrekt› denken, und dazu ist es verlockend, zu verstehen, wie korrektes Denken überhaupt funktioniert.

Ich könnte nun Regress nehmen auf die mathematische Logik. Doch das Gehirn funktioniert nicht auf diese Weise. Auf welche Weise denn? Damit habe ich mich über viele Jahrzehnte beschäftigt, in der Praxis, ganz konkret bei dem Versuch, dem Computer NLP (Natural Language Processing) beizubringen, also explizite, maschinenfassbare Regeln zu finden für das Verstehen von Texten, ein Verstehen, das eigentlich ein subjektiver und zudem schwierig zu beschreibender Vorgang ist.

Meine Computerprogramme waren erfolgreich, doch das wirklich Interessante sind die Erkenntnisse, die ich dabei über das Denken gewinnen konnte, genauer, über die Logik, mit der wir denken.

Bei meiner Arbeit gelangen mir Erkenntnisse über den semantischen Raum, in dem wir denken, die Begriffe, die sich in diesem Raum aufhalten und die Art, wie sie sich bewegen. Doch die wichtigste Erkenntnis betraf die Zeit in der Logik. Darauf möchte ich jetzt eintreten.

Echte Paradoxe

Jeder, der sich ernsthaft mit Logik beschäftigt, ob professionell oder aus persönlichem Interesse, stösst früher oder später auf Paradoxe. Ein klassisches Paradox ist z.B. das Barbier-Paradox:

Das Barbierparadox

Der Barbier eines Dorfes wird dadurch definiert, dass er alle Männer rasiert, die sich nicht selber rasieren. Rasiert der Barbier sich selber? Wenn er das tut, gehört er zu den Männern, die sich selber rasieren und die er deshalb nicht rasiert. Wenn er sich somit nicht selber rasiert, gehört er aber zu den Männern, die er rasiert, also rasiert er auch sich selber. Dadurch gehört er aber zu den Männern, die er nicht rasieren muss. Also rasiert er sich nicht – usw. Das ist das Paradox: Wenn er sich rasiert, rasiert er sich nicht. Wenn er sich nicht rasiert, rasiert er sich.

Das gleiche Muster findet sich in weiteren Paradoxien, wie dem Lügnerparadox und vielen anderen. Man könnte nun denken, dass diese Art Paradoxien sehr gesucht sind und real keine Rolle spielen. Doch die Paradoxien spielen schon eine Rolle, zumindest an zwei Orten: in der Mathematik und im Denkvorgang.

Das Russel’sche Paradox und die Unvollständigkeitssätze von Kurt Gödel

Das Russel’sche Paradox hat das ‹Loch› in der Mengenlehre gezeigt. Die «Menge aller Mengen, die sich nicht selbst als Element enthalten» folgt dem gleichen Muster wie der Barbier des Barbierparadoxes und führt zur gleichen Art von unlösbarem Paradox. Etwas komplexer sind die beiden Unvollständigkeitssätze von Kurt Gödel, die aber letztlich auf dem gleichen Muster beruhen. Sowohl Russels wie Gödels Paradoxien sind für die Mathematik folgenreich. Das Russel Paradox hat dazu geführt, dass die Mengenlehre nicht mehr allein mit Mengen gebildet werden kann, weil das zu unhaltbaren Widersprüchen führt. Zermelo hatte deshalb die Mengen mit Klassen ergänzt und so die Geschlossenheit der Mengenlehre aufgeben müssen.

Auch Gödels Unvollständigkeitssätze beruhen letztlich auf dem gleichen Muster wie das Barbierparadox. Gödel hatte gezeigt, dass jedes formale System (formal im Sinn der Mathematik) Aussagen enthalten muss, die man formal weder beweisen noch widerlegen kann. Ein harter Schlag für die Mathematik und ihre formale Logik.

Spencer-Brown und die «Laws of Form»

Russels Widerlegung des simplen Mengenbegriffs und Gödels Beweis der Unvollständigkeit formaler Logik legen es nahe, näher über Paradoxe nachzudenken. Was ist das genau für ein logisches Muster, das hinter Russels und Gödels Problemen steckt? Was macht die Mengenlehre und die formale Logik unvollständig?

Die Frage hat mich lange beschäftigt. Überraschend hat es sich dann gezeigt, dass Paradoxien nicht nur lästige Übel sind, sondern dass es sich lohnt, sie vielmehr als sinnvolle Elemente in einer neuen formalen Logik einzusetzen. Dieser Schritt wurde vom Mathematiker Georg Spencer-Brown in seinem Buch «Laws of Form» von 1969 aufgezeigt, samt einem maximal einfachen Formalismus für Logik.

Ich möchte nun näher auf die Struktur der Paradoxien eintreten, wie sie Spencer-Browns aufgezeigt hat und auf die Konsequenzen, die sich daraus auf die Logik, die Physik, die Biologie und vieles mehr ergeben.

Fortsetzung: Paradoxe Logikkerne (Teil 2)


Die 21. Reise und die künstliche Intelligenz

Littering im Weltraum ist nicht erst seit Elon Musks Starlink-Programm ein Thema und aktuell werden verschiedene Methoden zur Reinigung des zunehmend vermüllten Weltraums rund um unserer Erde diskutiert. Die Aufgabe ist nicht einfach, weil – aufgrund des zweiten Hauptsatzes, nämlich der unausweichlichen Entropiezunahme – jede Vermüllung die Tendenz hat, exponentiell zuzunehmen. Wenn eines der Tausenden von Schrottteilen im Weltraum von einem anderen Schrottteil getroffen wird, entstehen aus dem einen getroffenen Stück viele neue, mit irrer Geschwindigkeit herumfliegende Teile. Das Weltraumvermüllung ist also ein Selbstläufer mit zunehmend exponentieller Tendenz.

Aber kennen wir dieses Problem nicht schon lange? In den 60-er Jahren hatte der polnische Schriftsteller Stanislaw Lem bereits darüber geschrieben. Ich holte deshalb seine Zusammenstellung der Reisen des Kosmonauten Ijon Tichys hervor. In der 21. seiner Reisen trifft dieser auf einen vermüllten Planeten. Tichy, der weitgereiste Kosmonaut, schreibt:

«Jede Zivilisation, die in der technischen Phase steckt, beginnt allmählich in den Abfällen zu versinken, die ihr gewaltige Sorgen bereiten.»

Des weiteren beschreibt Tichy, wie deshalb die Abfälle in den Weltraum rund um den Planeten entsorgt werden, dort aber neue Probleme bereiten, was Folgen hat, die auch Kosmonaut Tichy zu spüren bekommt.

Doch die 21. Reise hat es aus noch ganz anderen Gründen in sich. Das Hauptthema dieser Reise ist – wie bei vielen Geschichten von Stanislaw Lem – die künstliche Intelligenz.

Tichy trifft auf dem jetzt gereinigten Planeten nicht nur auf eine weitere unliebsame Folge des zweiten Hauptsatzes (nämlich eine entartete Biogenetik), sondern auch auf einen Mönchsorden, der aus Robotern besteht. Diese Robotor diskutieren mit Tichy über die Bedingungen und Folgen ihrer künstlichen Intelligenz. So sagt z.B. der Roboterprior über die Beweiskraft von Algorithmen:

«Die Logik ist ein Werkzeug» erwiderte der Prior, «und aus einem Werkzeug resultiert nichts. Es muss einen Schaft und eine lenkende Hand haben.» (S. 272, Lem)

Ich selber bewegte mich – ohne dass mir der Zusammenhang und die mögliche Beeinflussung meiner Gedanken durch Stanislaw Lem bewusst war – ganz auf den Spuren von Lems Roboter-Priors und schrieb:

«Eine Instanz (Intelligenz) […]  muss zwecks Beurteilung der Daten den Bezug zwischen den Daten und dem Beurteilungsziel herstellen. Diese Aufgabe ist immer an eine Instanz mit einer bestimmten Absicht gebunden.» (Straub 2021, S. 64-65)

Lem hat bereits vor 50 Jahren  formuliert, was meines Erachtens den prinzipiellen Unterschied zwischen einer Werkzeug-Intelligenz und einer belebten (d.h. biologischen) Intelligenz ausmacht – nämlich die Absicht, welche die Logik lenkt. Bei der Maschine fehlt sie, bzw. wird sie von aussen (von wem?) eingebeben. Die menschliche Intelligenz hingegen kann – wenn wir keine Roboter sein wollen – ihre Ziele selber bestimmen. Sie besteht in den Worten von Lems Prior nicht nur aus der Logik, welche von der lenkenden Hand geführt wird, sondern beinhaltet die lenkende Hand mit.

Als Konsequenz dieser Überlegung folgt für mich bezüglich KI:

Wenn wir uns der technischen Möglichkeiten der KI bedienen (und weshalb sollten wir nicht?), dann sollten wir immer auch berücksichtigen, nach welchem Ziel unsere Algorithmen ausgerichtet sind.

Literatur

  • Lem, S. (1971) Sterntagebücher, Frankfurt am Main, Suhrkamp, 1978.
  • Straub, HR. (2021) Wie die künstliche Intelligenz zur Intelligenz kommt, St. Gallen, ZIM-Verlag.
  • Nowotny, H. (2021) In AI we Trust, Power, Illusion and Control of Predictive Algorithms, Cambridge/Medford, Polity Press.

Die Drei-Welten-Theorie (Roger Penrose)

Die drei Welten

Es gibt praktische Fragen, die mit unseren konkreten Leben zu tun haben, und theoretische Fragen, die damit scheinbar nichts zu tun haben. Es gibt aber auch theoretische Überlegungen, die durchaus mit unserem praktischen Alltag zu tun haben. Eine davon ist die Drei-Welten-Theorie, die sich damit beschäftigt, in welchen Welten wir konkret leben.

Auf welchem Grund steht unsere ganz alltägliche Existenz? Die Drei-Welten-Theorie weist darauf hin, dass wir uns gleichzeitig in drei grundverschiedenen Welten bewegen. Praktisch stellt das für uns kein Problem dar, theoretisch hingegen stellt sich die Frage, wie drei so verschiedene Welten sich denn in der Realität überhaupt begegnen können.

Bei Roger Penrose heissen die drei Welten:
A) Platonic World
B) Physical World
C) Mental World

Hier ist die originale Darstellung von Roger Penrose:

Platonic World: Die Welt der Ideen. Mathematik z.B. befindet sich gänzlich in der platonischen Welt.

Physical World: Die reale, physische Welt mit Dingen, die zu einem bestimmten Zeitpunkt an einen bestimmten Ort sind.

Mental World: Meine subjektiven Wahrnehmungen, die mich die anderen Welten erst erkennen lassen. Aber auch meine Gedanken und Vorstellungen, so wie ich sie erlebe.

Das Kreisverhältnis zwischen den drei Welten

Die Pfeile zwischen den Kugeln deuten das Kreisverhältnis an, das diese Welten nach Penrose miteinander eingehen:

Platonic → Physical: Hinter der Physik steckt Mathematik. Physik ist ohne höhere Mathematik undenkbar. Offensichtlich hält sich die physikalische Welt sehr genau an mathematische Gesetze. Wird die Realwelt also von der Mathematik bestimmt?

Physical → Mental: Mein Hirn ist ein Gegenstand der physikalischen Welt. Nach gängiger Vorstellung bestimmen die Neuronen des Hirngewebes mit ihren elektrischen Schaltungen meine Hirnleistungen.

Mental → Platonic: Grosse Denker sind in der Lage, in Gedanken (Mental World) die Gesetze der Mathematik zu formulieren, sie ‹entstehen› in ihrem Kopf.

Das ist also der Kreisprozess:
Die platonische Welt (Mathematik) bestimmt die physikalische. Diese ist die Basis für das menschliche Denken. Im menschliche Denken wiederum haben Mathematik (und andere Ideen) ihren Platz. Die mathematischen Gesetze … hier schliesst sich der Kreis.

Mächtigkeiten der drei Welten

Interessant sind auch die sich öffnenden Trichter in Penrose’s Skizze, die zusammen mit den Pfeilen von einer Welt zur nächsten weisen. Penrose deutet damit an, dass die im Kreisprozess folgende Welt nur einen Teil der Welt benötigt, aus der sie während des Generierungsprozesses entsteht.

Platonic → Physical: Nur ein kleiner Teil der mathematischen Erkenntnisse kann in der Physik verwendet werden. So gesehen brauchen (sind?) die physikalischen Gesetze nur einen Ausschnitt aus der Mathematik.

Physical → Mental: Mein Hirn ist ein sehr kleiner Teil der physikalischen Welt.

Mental → Platonic: Mein Hirn beschäftigt sich mit vielem; Mathematik und abstrakte Ideen sind nur ein Teil davon.

Die Platonische Welt ist dann wieder Ursprung für die physische Welt. Die Grössenverhältnisse scheinen dabei aber nicht richtig aufzugehen. Das gleicht der berühmten ewigen Treppe:

Die ewige Treppe

Nebenbemerkung:
Die ewige Treppe wurde  von Roger Penrose’s Vater, Lionel Penrose enteckt und wird auch Penrose-Treppe genannt  – bzw. Escher-Penrose-Treppe nach dem holländischen Grafiker, der u.a. Douglas Hofstadter zu seinem Buch ‹Gödel, Escher, Bach› inspiriert hat. Die Endlosigkeit, mit der die Treppe steigt, ist grafisch scheinbar mühelos darstellbar, logisch jedoch höchst verzwickt (selbstreferenzielles Tabu).

Für Penrose liegt ein Geheimnis in den drei Welten. Er schreibt:

«Zweifellos gibt es in Wirklichkeit nicht drei Welten, sondern nur eine, und das wahre Wesen dieser Welt können wir gegenwärtig nicht einmal erahnen.»

Es geht also um drei Welten in einer – und somit um ihre Unterschiede und die Art ihrer Verschränkung.

Keine abstrakte Theorie

Die drei Welten sind keine abstrakte Theorie, sondern lassen sich in unserer eigenen privaten Erlebniswelt erkennen. Sie spielen z.B. in der Musik eine wichtige Rolle. Am Beispiel der Musik kann man auch erkennen, wie die drei Welten zusammenwirken. Mehr dazu später auf dieser Website (siehe Übersichtseite zur Drei-Welten-Theorie).

Nachtrag im Oktober 2020:

Ich habe diesen Beitrag einen Monat vor der Bekanntgabe, dass Sir Roger Penrose den Nobelpreis bekommt, geschrieben. Ich freue mich sehr, dass dieser geniale Wissenschaftler den Preis bekommt.


Dies ist der Startbeitrag zum Thema Musikalische Tonleitern und Drei-Welten-Theorie.

Spiele und Intelligenz (2): Deep Learning

Go und Schach

Das asiatische Go-Spiel hat viele Ähnlichkeiten mit Schach und ist dabei gleichzeitig einfacher und raffinierter. Das heisst:

Gleich wie Schach:
– Brettspiel → klar definiertes Spielfeld
– Zwei Spieler (mehr würde die Komplexität sofort erhöhen)
– Eindeutig definierte Spielmöglichkeiten der Figuren (klare Regeln)
– Die Spieler ziehen abwechselnd (klare Zeitschiene)
– Keine versteckten Informationen (wie etwa beim Jassen)
Klares Ziel (Wer am Schluss das grössere Gebiet besetzt, gewinnt)

Bei Go einfacher:
– Nur ein Typus Spielfigur/Steine (Bei Schach: König, Dame, etc.)

Bei Go komplexer/aufwendiger:
– Go hat das leicht grössere Spielfeld.
– Die grössere Anzahl Felder und Steine führt zu etwas mehr Rechenaufwand.
– Trotz sehr einfachen Grundelementen hat Go eine ausgesprochen raffinierte Spielanlage.

Zusammenfassung

Die Unterschiede zwischen Go und Schach sind verglichen mit den Gemeinsamkeiten minimal. Insbesondere sind auch für Go die stark einschränkenden Vorbedingungen a) bis d)  erfüllt, die es einem Algorithmus erlauben, die Aufgabe in Angriff zu nehmen:

a) klar definiertes Spielfeld
b) klar definierte Spielregeln
c) klar definierter Spielablauf
d) klares Spielziel

(siehe auch Vorbeitrag)

Go und Deep Learning

Google hat die besten menschlichen Go-Spieler besiegt. Der Sieg wurde durch einen Typus KI erreicht, der als Deep Learning bezeichnet wird. Manche Leute denken, dass damit sei bewiesen, dass ein Computer – d.h. eine Maschine – wirklich intelligent sein könne. Schauen wir deshalb genauer, wie Google das angestellt hat.

Regel- oder korpusbasiert – oder ein neues, drittes System?

Die Strategien der bekannten KI-Programme sind entweder regel- oder korpusbasiert. In den Vorbeiträgen haben wir uns gefragt, wo die Intelligenz bei diesen beiden Strategien herkommt und wir haben gesehen, dass die Intelligenz bei der regelbasierten KI von menschlichen Experten in das System hinein gegeben wird, indem sie die Regeln bauen. Bei der korpusbasierten KI sind ebenfalls Menschen nötig, denn alle Einträge in den Korpus müssen eine Bewertung (z.B. eigener/fremder Panzer) bekommen, und diese Bewertung lässt sich immer auf Menschen zurückführen, auch wenn das nicht immer sofort ersichtlich ist.

Wie aber sieht das nun bei Deep Learning aus? Offensichtlich sind hier keine Menschen mehr nötig, um konkrete Bewertungen – bei Go bezüglich der Siegeschancen der Spielzüge – abzugeben, sondern es reicht, dass das Programm gegen sich selber spielt und dabei selbstständig herausfindet, welche Züge die erfolgreichsten waren. Dabei ist Deep Learning NICHT auf menschliche Intelligenz angewiesen und erweist sich – bei Schach und Go – sogar der menschlichen Intelligenz überlegen. Wie funktioniert das?

Deep Learning ist korpusbasiert

Zweifellos haben die Ingenieure von Google einen phantastischen Job gemacht. Während bei konventionellen korpusbasierten Anwendungen die Daten des Korpus mühsam zusammengesucht werden müssen, ist das beim Go-Programm ganz einfach: Die Ingenieure lassen den Computer einfach gegen sich selber spielen und jedes Spiel ist ein Eintrag im Korpus. Es müssen nicht mehr mühsam Daten im Internet oder anderswo gesucht werden, sondern der Computer kann den Korpus sehr einfach und schnell in beliebiger Grösse selber generieren. Das Deep Learning für Go bleibt zwar wie die Programme zu Mustererkennung weiterhin auf einen Korpus angewiesen, doch dieser lässt sich sehr viel einfacher – und vor allem automatisch – zusammenstellen.

Doch es kommt für das Deep Learning noch besser: Neben der einfacheren Erstellung des Korpus gibt es einen weiteren Vorteil: Es braucht überhaupt keine menschlichen Experten mehr, um unter den vielen zu einem bestimmten Zeitpunkt möglichen Spielzügen den besten herauszufinden. Wie funktioniert das? Wie kann Deep Learning ganz ohne menschliche Intelligenz intelligente Schlüsse ziehen? Das ist schon erstaunlich. Bei näherem Hinsehen wird aber klar, weshalb das in der Tat so ist.

Die Bewertung der Korpuseinträge

Der Unterschied liegt in der Bewertung der Korpuseinträge. Sehen wir dazu noch einmal unser Panzerbeispiel an. Sein Korpus besteht aus Bildern von Panzern, und ein menschlicher Experte muss jedes Bild danach beurteilen, ob es einen eigenen oder fremden Panzer darstellt. Dazu braucht es – wie dargestellt – menschliche Experten. Auch bei unserem zweiten Beispiel, der Suchmaschine, beurteilen menschliche Anwender, nämlich die Kunden, ob der im Korpus vorgeschlagene Link auf eine Website zum eingegebenen Suchausdruck passt. Beide Arten von KI kommen nicht ohne menschliche Intelligenz aus.

Bei Deep Learning ist das jedoch wirklich anders. Hier braucht es keine zusätzliche Intelligenz, um den Korpus, d.h. die einzelnen Züge der vielen Spielverläufe, die bei den Go-Testspielen entstehen, zu bewerten. Die Bewertung ergibt sich automatisch aus dem Spiel selber, denn es kommt nur darauf an, ob das Spiel gewonnen wird oder nicht. Das weiss der Korpus aber selber, da er ja den ganzen Spielverlauf bis zum Schluss hin registriert hat. Jeder Spielverlauf im Korpus hat somit seine Bewertung automatisch mit dabei – eine Bewertung durch Menschen erübrigt sich.

Natürliche Grenzen des Deep Learning

Durch das oben Gesagte lassen sich aber auch die Bedingungen erkennen, unter denen Deep Learning überhaupt möglich ist: Damit Spielverlauf und Bewertung klar sind, dürfen keine Überraschungen auftreten. Mehrdeutige Situationen und unkontrollierbare Einflüsse von aussen sind verboten. Damit alles fehlerfrei kalkulierbar bleibt, braucht es zwingend:

1. Ein geschlossenes System

Dies ist durch die Eigenschaften a) bis c) (siehe Vorbeitrag) gegeben, die Spiele wie Schach und Go aufweisen, nämlich:

a) klar definiertes Spielfeld,
b) klar definierte Spielregeln,
c) klar definierter Spielablauf.

Ein geschlossenes System ist nötig, damit Deep Learning funktionieren kann. Ein solches kann nur ein konstruiertes sein, denn in der Natur gibt es keine geschlossenen Systeme. Es ist kein Zufall, dass Schach und Go sich für die KI besonders eignen, da Spiele immer diesen Aspekt des bewusst Konstruierten haben. Schon Spiele, die den Zufall mit integrieren, wie das Jassen im Vorbeitrag, sind keine absolut geschlossenen Systeme mehr und deshalb für eine künstliche Intelligenz weniger geeignet.

2. Ein klar definiertes Ziel

Auch das klar definierte Ziel – Punkt d) im Vorbeitrag – ist nötig, damit die Bewertung des Korpus ohne menschlichen Eingriff stattfinden kann. Das Ziel des untersuchten Vorgangs und die Bewertung der Korpuseinträge hängen nämlich eng zusammen. Wir müssen verstehen, dass das Ziel der Auswertung des Korpus nicht durch die Daten des Korpus gegeben ist. Daten und Auswertung sind zwei verschiedene Dinge, und die Auswertung der Daten hängt vom Ziel ab. Wir haben diesen Aspekt bereits im Beispiel mit den Panzern diskutiert.

Dort sahen wir, dass ein Korpuseintrag, d.h. die Pixel eines Panzerbilds, nicht automatisch seine Bewertung (fremd/eigen) enthält. Die Bewertung ist eine Information, die nicht in den einzelnen Daten (Pixeln) des Bildes enthalten ist, vielmehr muss sie von aussen (durch eine interpretierende Intelligenz) in den Korpus hinein gegeben  werden. Der gleiche Korpuseintrag kann deshalb sehr unterschiedlich bewertet werden:  Wenn dem Korpus mitgeteilt wird, ob es sich beim jeweiligen Bild um einen eigenen oder einen fremden Panzer handelt, ist damit noch nicht bekannt, ob es ein Raupen- oder ein Radpanzer ist. Die Bewertung kann bei allen solchen Bildern in ganz unterschiedliche Richtungen gehen. Beim Schachspiel und bei Go hingegen ist das anders. Dort wird ein Zug im Spielverlauf (der im Korpus bekannt ist) allein danach bewertet, ob er dem Spielsieg dienlich ist.

Bei Schach und Go gibt es somit ein einfaches, klar definiertes Ziel. Bei Panzerbildern hingegen sind im Gegensatz zu Schach und Go ganz unterschiedliche Beurteilungsziele möglich. Das ist typisch für reale Situationen. Reale Situationen sind immer offen und in ihnen sind unterschiedliche Beurteilungen je nach Situation absolut normal und sinnvoll. Eine Instanz (Intelligenz) ausserhalb der Daten muss zwecks Beurteilung der Daten den Bezug zwischen den Daten und dem Beurteilungsziel herstellen. Diese Aufgabe ist immer an eine Instanz mit einer bestimmten Absicht gebunden.

Der maschinellen Intelligenz fehlt jedoch diese Absicht und sie ist deshalb darauf angewiesen, dass ihr das Ziel von aussen vorgegeben wird. Wenn das Ziel nun so selbstevident ist wie bei Schach und Go, ist das kein Problem und die Bewertung des Korpus kann in der Tat ohne menschliche Intelligenz von der Maschine selbstständig durchgeführt werden. In solchen eindeutigen Situationen kann maschinelles Deep Learning wirklich funktionieren und die menschliche Intelligenz sogar schlagen.

Das trifft aber nur zu, wenn die Spielregeln und das Spielziel klar definiert sind. In allen anderen Fällen braucht es keinen Algorithmus, sondern eine ‹echte›, d.h. eine absichtsvolle Intelligenz.

Fazit

  1. Deep Learning (DL) funktioniert.
  2. DL verwendet ein korpusbasiertes System.
  3. DL kann die menschliche Intelligenz bei gewissen Aufgaben schlagen.
  4. DL funktioniert aber nur in einem geschlossenen System.
  5. DL funktioniert nur dann, wenn das Ziel klar und eindeutig ist.

Ad 4) Geschlossene Systeme sind nicht real, sondern entweder offensichtliche Konstrukte (wie Spiele) oder Idealisierungen von realen Verhältnissen (= Modelle). Solche Idealisierungen sind immer Vereinfachungen im Sinn der Interpretationstheorie und beinhalten eine Informationsreduktion. Sie können deshalb die Realität nicht vollständig abbilden.

Ad 5) Das Ziel, d.h. die ‹Absicht› entspricht einem subjektiven Moment. Dieses subjektive Moment unterscheidet die natürliche von der maschinellen Intelligenz. Der Maschine muss es vorgegeben werden.


Wie wir gesehen haben, lohnt es sich, verschiedene Formen von KI zu unterscheiden und ihre Funktionsweise genauer anzusehen. So werden die Stärken und Schwächen dieser neuen Technologien, die auch die heutige Welt entscheidend mitbestimmen, klarer sichtbar.

Im nächsten Beitrag bringen wir basierend auf den bisherigen Erkenntnissen eine Zusammenstellung der verschiedenen KI-Systeme.


Dies ist ein Beitrag zum Thema Künstliche Intelligenz.

Spiele und Intelligenz (1): Jassen und Schach

Schach oder Jassen, was erfordert mehr Intelligenz?

Jassen ist ein Schweizer Kartenspiel, verwandt mit Bridge, wenn auch etwas hemdsärmliger.

Allgemein wird angenommen, dass Schach mehr Intelligenz verlangt, denn offensichtlich haben weniger intelligente Spieler beim Jassen durchaus eine Chance, beim Schach hingegen nicht. Wenn wir uns überlegen, was ein Computerprogramm können muss, um zu siegen, sieht das Bild aber schnell anders aus: Schach ist für eine Maschine eindeutig einfacher.

Das überrascht Sie vielleicht, aber es lohnt sich, die Gemeinsamkeiten der beiden Spiele, aber auch die Unterschiede genauer anzusehen – und natürlich hat beides viel mit unserem Thema Künstliche Intelligenz zu tun.

Gemeinsamkeiten

a) Klares Spielfeld

Das Schachbrett hat 64 schwarze und weisse Felder. Nur die Figuren, die sich auf diesen Feldern befinden, spielen eine Rolle. Beim Jassen könnte man den sogenannten Jassteppich als Spielfeld bezeichnen. Dieser ist das materielle Spielfeld, so wie das materielle Schachbrett das Spielfeld fürs Schach ist. Wenn wir uns für das siegreiche Spielverhalten interessieren, spielen die Farbe des Jassteppichs und die materielle Beschaffenheit des Schachbretts jedoch keine Rolle, sondern es kommt nur auf das abstrakte, d.h. das ‹informatische› Spielfeld an: Wo können sich unsere Schachfiguren und Spielkarten bewegen? Und diesbezüglich ist die Situation auch beim Jassen völlig klar. Die Karten sind zu jedem Zeitpunkt an einem klar definierten Ort, entweder bei einem bestimmten Spieler bereit zum Ausspielen, bei einem bestimmten Spieler bereits eingesteckt als seine ‹Beute› oder auf dem Jassteppich als offene und für jeden sichtbare Karte. Sowohl beim Schach wie beim Jassen können wir von einem klar definierten Spielfeld ausgehen.

b) Klare Spielregeln

Auch hier gibt es zwischen den beiden Spielen kaum einen Unterschied. Zwar variieren in der Schweiz die Jassregeln von Dorf zu Dorf und von ‹Beiz› zu ‹Beiz› und ein diesbezüglicher Dissens kann zu heftigen Diskussionen führen, doch sobald man sich auf ein Set an Regeln geeinigt hat, ist die Situation klar. Wie beim Schach ist eindeutig, was geht und was nicht, und die möglichen Aktivitäten der Spieler sind eindeutig definiert.

c) Klarer Spielverlauf (Zeitverlauf)

Auch hier unterscheiden sich die beiden Spiele nicht. Zu jedem Zeitpunkt gibt es genau einen Akteur, der handeln darf und seine Handlungsmöglichkeiten sind klar definiert.

d) Klares Spielziel

Beim Schach geht es darum, den gegnerischen König matt zu setzen, ein ganz eindeutiges, klar definiertes Ziel. Beim Jassen entscheidet die Punkte- oder Stichzahl, je nach Variante. Jedes Spiel hat ein klar definiertes Ende. Beim Jassen wird nach neun Stichen gezählt, beim Schach verhindern Remis- und Patt-Regeln, dass ein Spiel nicht beendet werden kann. Es gibt immer einen klaren Sieger und klare Verlierer, notfalls ein definitives Unentschieden.

Unterschiede

e) Eindeutige Ausgangssituation?

Beim Schach ist die Ausgangslage bei jedem Spiel identisch, alle Figuren haben ihren angestammten Platz. Beim Jassen hingegen wird vor jedem Spiel gemischt. Während wir beim Schach somit immer die gleiche Ausgangslage vorfinden, müssen wir uns beim Jassen auf eine immer neue einstellen. Der Zufall spielt somit beim Jassen eine wichtige Rolle, beim Schach ist er hingegen  ganz bewusst ausgeschlossen. Das hat natürlich Konsequenzen. Weil ich beim Jassen mit dem Zufall rechnen muss, kann ich nicht wie beim Schach mit Gewissheiten, sondern muss mit Wahrscheinlichkeiten rechnen.

f) Verdeckte Informationen?

Das Nichtwissen bleibt nun für die Jasser während des ganzen Spiels eine Herausforderung. Während beim Schach zu jedem Zeitpunkt und für jeden Spieler alles offen auf dem Brett erkennbar ist, lebt das Jassen geradezu davon, dass der beteiligte Spieler NICHT weiss, wo sich die Karten befinden. Er muss also raten – d.h. mit Wahrscheinlichkeiten rechnen – und ein bestimmtes Risiko eingehen. Beim Schach gibt es kein Raten, die Situation ist immer klar, offen und evident. Selbstverständlich ist dadurch die Situation beim Schach wesentlich einfacher zu beschreiben, beim Jassen hingegen erschwert das Nicht-Wissen die Beschreibung der Situation.

g) Wahrscheinlichkeiten und Emotionen (Psychologie)

Wenn ich nicht alles weiss, muss ich mit Wahrscheinlichkeiten rechnen. Die Beobachtung zeigt, dass wir Menschen darin durchs Band sehr schlecht sind. Wir lassen uns dabei von Emotionen sehr viel stärker lenken, als wir uns das eingestehen möchten. Ängste und Hoffnungen bestimmen unsere Vorstellungen, und wir schätzen Wahrscheinlichkeiten oft grob falsch ein. Ein KI-Programm hat hier natürlich Vorteile, da Emotionen keine Rolle spielen und die Wahrscheinlichkeiten auch kalkulatorisch viel besser verarbeitet werden können. Doch die Maschine will ja einen Gegner besiegen und muss deshalb seine Reaktionen korrekt einschätzen. Das KI-Programm tut deshalb gut daran, den fehlerhaften Umgang des Gegenübers mit Wahrscheinlichkeiten in seine Überlegungen mit einzubeziehen, was algorithmisch aber nicht sehr einfach ist. Wie erkennt es den Optimisten? Der menschliche Spieler versucht den Gegner zu lesen und ihn gleichzeitig über die eigenen Emotionen zu täuschen. Das gehört zum Spiel. Es nützt dem Programm nichts, wenn es emotionslos rechnet, die Emotionen des Gegenübers aber nicht erkennen und bewerten kann.

h) Kommunikation 

Schach wird von einem Spieler gegen einen anderen gespielt. Gejasst wird meist zu viert, zwei Spieler gegen zwei andere. Dieser Aspekt, dass nämlich zwei Individuen ihre Aktionen miteinander abstimmen müssen, macht das Spiel interessant, und es wäre für ein Jass-Programm fatal, wenn es diesen Aspekt vernachlässigen würde. Wie sollen wir das nun programmieren? Beachten müssen wir dabei natürlich auch den Punkt f) oben, nämlich die Tatsache, dass ich die Karten meines Partners nicht sehen kann, ich kenne weder die Karten meiner Gegner, noch diejenigen meines Partners. Mein Partner und ich sind selbstverständlich daran interessiert, unser Spiel zu koordinieren, und dazu gehört, dass wir einander unsere Möglichkeiten (verdeckte Karten) und unsere Strategien (Absichten zum Spielverlauf) mitteilen. Wenn ich zum Beispiel ein Herz-As habe, möchte ich, dass mein Partner Herz spielt, sodass ich den Stich machen kann. Das darf ich ihm aber nicht offen sagen. Für routinierte Jasser ist das jedoch kein Problem. Erstens ergibt sich aus dem Spielverlauf oft, wer das Herz-As verdeckt in seinen Karten hat. Natürlich ist es nicht einfach, das herauszufinden, da dafür sowohl die gespielten Karten als auch mögliche Taktiken und Strategien in die Kalkulation einbezogen werden müssen. Die Zahl der Möglichkeiten, die Kalkulation der Wahrscheinlichkeiten und die Psychologie der Player kommen alle hier ins Spiel, was zu einer sehr spannenden Gemengelage führen kann – die ja letztlich auch den Reiz des Spiels ausmacht. Beim Schach hingegen, mit seiner stets sehr expliziten Situation, sind die Verhältnisse diesbezüglich sehr viel einfacher.

Doch es kommt noch dicker:

i) Der legale Graubereich

Kann ich mit meinem Partner wirklich nicht über unsere Karten und unsere Strategie kommunizieren? Offiziell ist das natürlich verboten – aber lässt sich das Verbot in der Praxis wirklich durchsetzen?

Natürlich nicht. Während beim Schach praktisch nur die expliziten Spielzüge eine Rolle spielen, gibt es beim Jassen viele zusätzliche Informationen, die ein geübter Spieler lesen können muss. Wie lächle ich, wenn ich eine Karte spiele? Wenn ich das Herz-As habe, das den nächsten Stich machen kann, möchte ich natürlich, dass mein Partner mir hilft und Herz ausspielt. Eine Möglichkeit das zu erreichen, wenn der Partner am Stich ist, ist es, eine wertlose Herzkarte zu spielen und sie dabei ganz deutlich und kräftig auf den Tisch zu hauen. Ein geübter Jasspartner wird das problemlos als Zeichen verstehen, als nächstes Herz und nicht etwa Karo auszuspielen, damit ich in der Folge mit meinem As den Stich machen kann. Niemand wird mir dieses Auf-den-Tisch-Hauen – solange es genügend diskret ist – wirklich verbieten können. Wirklich eingespielte Jassfreunde kennen neben den völlig legalen Zeichen, die sie automatisch durch die Wahl ihrer gespielten Karten abgeben, auch einige Zeichen aus dem Graubereich, mit denen sie ihr Spiel koordinieren.

Diese Zeichen sind Informationen, die eine ambitionierte KI erkennen und verarbeiten können muss. Die Menge der Information, die sie dabei verarbeiten muss, ist nicht nur viel grösser als die Informationsmenge beim Schach, sie ist auch keinesfalls limitiert. Meine KI spielt ja gegen zwei menschliche Gegner und auch diese kommunizieren. Ihre Kommunikation sollte die KI erkennen, um nicht hoffnungslos über den Tisch gezogen zu werden. Die von den Gegnern vereinbarten Zeichen können natürlich variieren und beliebig raffiniert sein. Wie findet meine KI heraus, wie sich die beiden vorgängig abgesprochen haben?

Fazit

Jassen ist schwieriger zu programmieren als Schach

Wenn wir ein Programm für das Jassen entwickeln wollen, müssen wir die Aspekte e) bis i) berücksichtigen, beim Schach hingegen spielen sie kaum eine Rolle. Algorithmisch gesehen stellen die Aspekte e) bis i) jedoch wegen ihrer Unwägbarkeiten eine schwierige Herausforderung dar.

Schach ist im Vergleich zum Jassen für den Computer wesentlich einfacher, da:

– immer gleiche Ausgangssituation
– keine verdeckte Information
– kein Einbezug von Wahrscheinlichkeitsüberlegungen
– geringe Rolle der menschlichen Emotionen
– kein legaler Graubereich, da kein Informationsaustausch zwischen zwei Partnern möglich ist

Schach ist deshalb für ein KI-Programm das einfachere Spiel. Es ist komplett definiert, d.h. die Informationsmenge, die im Spiel ist, ist sehr klein, klar offengelegt und klar begrenzt. Beim Jassen ist all das nicht der Fall.


Dies ist ein Beitrag zum Thema künstliche Intelligenz. Im zweiten Teil zum Thema Spiele und Intelligenz werde ich auf Go und Deep Learning eingehen.

Wie real ist das Wahrscheinliche?

Was nicht im Korpus ist, ist für die KI unsichtbar

Korpusbasierte KI-Systeme sind auf Erfolgskurs. Sie sind ‹disruptiv›, d.h. sie verändern unsere Gesellschaft nachhaltig und in sehr kurzer Zeit. Genügend Gründe also, sich zu vergegenwärtigen, wie diese Systeme effektiv funktionieren.

In den Vorbeiträgen habe ich  dargelegt, dass diese Systeme aus zwei Teilen bestehen, nämlich einem Daten-Korpus und einem neuronalen Netz. Selbstverständlich kann das Netz nichts erkennen, was nicht bereits im Korpus steckt. Die Blindheit des Korpus setzt sich automatisch im neuronalen Netz fort und die KI kann letztlich nur hervorbringen, was bereits in den Daten des Korpus vorgegeben ist. Ebenso verhält es sich mit Fehleingaben im Korpus. Auch diese finden sich in den Resultaten der KI und mindern insbesondere ihre Treffschärfe.

Wenn man sich die Wirkweise der KI vergegenwärtigt,  ist dieser Sachverhalt banal, denn der Lernkorpus ist die Grundlage für diese Art künstliche Intelligenz. Nur was im Korpus ist, kann im Resultat erscheinen und Fehler und Unschärfen des Korpus vermindern automatisch die Aussagekraft.

Weniger banal ist ein anderer Aspekt, der mit der künstlichen Intelligenz der neuronalen Netze ebenfalls essenziell verbunden ist. Es handelt sich um die Rolle der Wahrscheinlichkeit. Neuronale Netze funktionieren über Wahrscheinlichkeiten. Was genau heisst das und wie wirkt sich das in der Praxis aus?

Das neuronale Netz bewertet nach Wahrscheinlichkeit

Ausgangslage

Schauen wir wieder unsere Suchmaschine vom Vorbeitrag an: Ein Kunde unserer Suchmaschine gibt einen Suchstring ein. Andere Kunden haben bereits vorher den gleichen Suchstring eingegeben. Wir schlagen deshalb dem Kunden diejenigen Websites vor, die bereits die früheren Kunden ausgewählt haben. Weil das unübersichtlich viele sein können, wollen wir dem Kunden diejenigen zuoberst zeigen, die für ihn am interessantesten sind (siehe Vorbeitrag). Dazu bewerten wir alle Kunden gemäss ihren bisherigen Suchanfragen. Wie wir das im Detail machen, ist natürlich unser Geschäftsgeheimnis, schliesslich wollen wir gegenüber der Konkurrenz einen Vorsprung herausholen. Wie immer aber wir das auch tun – und wie immer es die Konkurrenz auch tut – am Schluss erhalten wir eine Gewichtung der Vorschläge der bisherigen Nutzer. Anhand dieser Gewichtung wählen wir die Vorschläge aus, die wir dem Fragesteller präsentieren, und die Reihenfolge, in der wir sie ihm zeigen. Und dabei sind die Wahrscheinlichkeiten entscheidend.

Beispiel

Nehmen wir an, der Anfragesteller A stellt  eine Suchanfrage an unsere Suchmaschine und die beiden Kunden B und C haben bereits die gleiche Suchanfrage wie A gestellt  und ihre Wahl, d.h. die Adressen der von ihnen gewählten Websites, in unserem gut gefüllten Korpus hinterlassen. Welche Auswahl sollen wir nun A bevorzugt präsentieren, die von B oder die von C?

Jetzt schauen wir uns die Bewertungen der drei Kunden an: Wie sehr stimmt das Profil von B und C mit dem Kunden A überein? Nehmen wir an, wir kommen auf folgende Übereinstimmungen:

Kunde B:  80%
Kunde C: 30%

Selbstverständlich nehmen wir an, dass Kunde B mit A besser übereinstimmt als C, und A deshalb mit den Antworten von B besser bedient ist.

Ist das aber sicher so?

Die Frage ist berechtigt, denn schliesslich besteht zu keinem der beiden anderen User eine vollständige Übereinstimmung. Vielleicht betreffen gerade die 30%, mit denen A und C übereinstimmen, das Gebiet der aktuellen Suchanfrage von A. Da wäre es schade, die Antwort von B bevorzugt zu platzieren, insbesondere wenn die 80% Übereinstimmung zu B ganz andere Gebiete betrifft, die mit der aktuellen Suchanfrage nichts zu tun haben. Zugegeben, die skizzierte Abweichung von der Wahrscheinlichkeit ist im konkreten Fall unwahrscheinlich, aber sie ist nicht unmöglich – das ist die eigentliche Crux mit den Wahrscheinlichkeiten.

Nun, wir entscheiden uns in diesem Fall vernünftigerweise für B, und wir können sicher sein, dass die Wahrscheinlichkeit auf unserer Seite ist. Für unseren Geschäftserfolg können wir uns getrost auf die Wahrscheinlichkeit verlassen. Warum?

Das hängt mit dem Prinzip der ‹grossen Zahl‹ zusammen. Für den einzelnen Fall kann – wie oben geschildert – die Antwort von C wirklich die bessere sein. In den meisten Fällen aber wird die Antwort von B unserem Kunden besser gefallen und wir tun gut daran, ihm diese Antwort zu geben. Das ist das Prinzip der ‹grossen Zahl›. Es liegt dem Phänomen Wahrscheinlichkeit essenziell zugrunde:

Im Einzelfall kann etwas geschehen, was unwahrscheinlich ist, für viele Fälle können wir uns aber darauf verlassen, dass meistens das Wahrscheinliche geschieht.

Fazit für unsere Suchmaschine
  1. Wenn wir uns also dafür interessieren, in den meisten Fällen recht zu bekommen, halten wir uns an die Wahrscheinlichkeit.
  2. Wir nehmen dabei in Kauf, dass wir in seltenen Fällen daneben greifen.
Fazit für die korpusbasierte KI generell

Was für unsere Suchmaschine gilt, gilt ganz generell für jede korpusbasierte KI, da eine solche immer mit Wahrscheinlichkeiten funktioniert. Somit lautet das Fazit für die korpusbasierte KI:

  1. Wenn wir uns dafür interessieren, in den meisten Fällen recht zu bekommen, halten wir uns an die Wahrscheinlichkeit.
  2. Wir nehmen dabei in Kauf, dass wir in seltenen Fällen daneben greifen.

Wir müssen bei der korpusbasierten KI mit einer inhärenten Schwäche rechnen, einer Art Achillesferse einer sonst hochpotenten Technologie. Diese Ferse sollten wir sorgfältig weiter beobachten:

  1. Vorkommen:
    Wann tritt der Fehler eher auf, wann kann man ihn eher vernachlässigen? Dies hängt mit der Grösse des Korpus und seiner Qualität, aber auch mit der Art der Fragestellung zusammen.
  2. Konsequenzen:
    Was hat es für Folgen, wenn seltene Fälle vernachlässigt werden?
    Kann das permanente Mitteln und Beachten nur der wahrscheinlichsten Lösungen als intelligent bezeichnet werden?
  3. Zusammenhänge:
    Für die grundlegenden Zusammenhänge interessant ist der Bezug zum Begriff der Entropie: Der 2. Hauptsatz der Wärmelehre besagt, dass in einem geschlossenen System immer das Wahrscheinlichere geschieht und die Wärmelehre misst diese Wahrscheinlichkeit anhand der Variablen S, welche sie als Entropie bezeichnet.
    Das Wahrscheinliche geschieht, in der Wärmelehre und in unserer Suchmaschine – wie aber wählt eine natürliche Intelligenz?

Dies ist ein Beitrag zum Thema künstliche Intelligenz. Im nächsten Beitrag geht es um Spiele und Intelligenz, konkret um den Unterschied zwischen Schach und Jassen.

Die Intelligenz in der Suchmaschine

Wie kommt die Intelligenz in die Suchmaschine?

Nehmen wir an, Sie bauen eine Suchmaschine. Sie wollen dabei möglichst keine teuren und nicht immer fehlerfreien menschlichen Fachexperten (domain experts) einsetzen, sondern die Suchmaschine nur mit ausreichend Datenservern (der Hardware für den Korpus) und einer ausgeklügelten Software bauen. Wieder verwenden Sie im Prinzip ein neuronales Netz mit einem Korpus. Wie bringen Sie nun die Intelligenz in Ihr System?

Trick 1: Lass die Kunden den Korpus trainieren

Bei einer Suchmaschine geht es wie bei der Panzer-KI der Vorbeiträge um Zuordnungen, diesmal von einem Eingabetext (Suchstring) eines Kunden zu einer Liste von Webadressen, die für seine Suche interessant sein könnten. Um die relevanten Adressen zu finden, basiert Ihr System wiederum auf einem Lernkorpus, der diesmal aus der Liste aller Sucheingaben von allen Ihren bisherigen Kunden besteht. Die Webadressen, die die früheren Kunden aus den ihnen angebotenen auch tatsächlich angeklickt haben, sind im Korpus als positive Hits vermerkt. Also geben Sie bei neuen Anfragen – auch von anderen Kunden – einfach die Adressen an, die bisher am meisten Klicks erhalten haben. So schlecht können die ja nicht sein, und mit jeder Anfrage und dem darauf folgenden Klick verfeinert sich das System. Und dann gilt: Je grösser der Korpus, umso präziser.

Wieder stammen diese Zuordnungen von aussen, nämlich von den Menschen, die die Auswahl, die Ihre Suchmaschine ihnen angeboten hat, mit ihren Klicks entsprechend bewertet haben. Die Menschen haben das getan:

  • mit ihrer menschlichen Intelligenz und
  • entsprechend ihren jeweiligen Interessen.

Besonders der zweite Punkt ist interessant. Wir könnten später noch etwas detaillierter darauf eingehen.

Trick 2: Bewerte die Kunden dabei mit

Nicht jede Zuordnung von jedem Kunden ist gleich relevant. Als Suchmaschinenbetreiber können Sie hier an zwei Punkten optimieren:

  • Bewerten Sie die Bewerter:
    Sie kennen ja alle Eingaben Ihrer Kunden. So können Sie leicht herausfinden, wie verlässlich die von ihnen gemachten Zuordnungen (die angeklickte Webadressen zu den eingegebenen Suchstrings) sind. Nicht alle Ihre Kunden sind in dieser Hinsicht gleich gut. Je mehr andere Kunden für den gleichen Suchstring die gleiche Webadresse anwählen, umso sicherer wird die Zuordnung auch für zukünftige Anfragen sein. Verwenden Sie nun diese Information, um die Kunden zu gewichten: Der Kunde, der bisher die verlässlichsten Zuordnungen hatte, d.h. derjenige, der am meisten das wählte, was die anderen auch wählten, wird am höchsten gewichtet. Einer, dem die anderen weniger folgten, gilt als etwas weniger verlässlich. Durch die Gewichtung erhöhen Sie die Wahrscheinlichkeit, dass die zukünftigen Suchergebnisse die Websites höher bewerten, die die meisten Kunden interessieren.
  • Bewerten Sie die Sucher:
    Nicht jeder Suchmaschinenbenutzer hat die gleichen Interessen. Das können Sie berücksichtigen, denn Sie kennen ja bereits alle früheren Eingaben von ihm. Diese können Sie verwenden, um ein Profil von ihm zu erstellen. Das dient natürlich dazu, die Suchergebnisse für ihn entsprechend auszuwählen. Bewerter mit einem ähnlichen Profil wie der Sucher werden die potenziellen Adressen auch ähnlich gewichten, und sie können so die Suchergebnisse noch mehr im Interesse des Kunden personalisieren.

Es lohnt sich für Sie als Suchmaschinenbetreiber auf jeden Fall, von allen Ihren Kunden ein Profil zu erstellen,  nur schon zur Verbesserung der Qualität der Suchvorschläge.

Konsequenzen

  1. Suchmaschinen werden durch den Gebrauch immer präziser.
    Das gilt für alle korpusbasierten Systeme, also für alle Technologien mit neuronalen Netzen: Je grösser ihr Korpus ist, desto besser ist ihre Präzision.  Sie können zu erstaunlichen Leistungen fähig sein.
  2. In diesem Zusammenhang lässt sich ein bemerkenswerter Rückkopplungseffekt feststellen: Je grösser ihr Korpus ist, umso besser ist die Qualität einer Suchmaschine und deshalb wird sie häufiger benützt, was wiederum ihren Korpus vergrössert und so ihre Attraktivität gegenüber der Konkurrenz steigert. Dieser Effekt führt unweigerlich zu den Monopolen, wie sie typisch sind für alle Anwendungen von korpusbasierter Software.
  3. Alle Bewertungen sind primär von Menschen erstellt worden.
    Die Basis der Intelligenz – die zuordnenden Eingaben im Korpus – erfolgen weiterhin durch Menschen. Bei den Suchmaschinen ist das jeder einzelne Benutzer, der so sein Wissen in den Korpus eingibt. So künstlich ist die Intelligenz in dieser KI also gar nicht.
  4. Korpusbasierte Systeme tragen die Tendenz zur Blasenbildung in sich: Wenn Suchmaschinen von ihren Kunden Profile anlegen, können sie diese mit besseren Suchergebnissen bedienen. Das führt aber in einem selbstreferenziellen Prozess unweigerlich zu einer Blasenbildung: Anwender mit ähnlichen Ansichten werden von den Suchmaschinen immer näher zusammen gebracht, da sie auf diese Weise die Suchergebnisse erhalten, die ihren jeweiligen Interessen und Ansichten am besten entsprechen.  Abweichende Ansichten bekommen sie immer weniger zu Gesicht.

Dies ist ein Beitrag zum Thema künstliche Intelligenz. Im nächsten Beitrag geht es um einen weiteren wichtigen Aspekt der korpusbasierten Systeme, nämlich um die Rolle der Wahrscheinlichkeit.

Was der Korpus weiss – und was nicht

Die Erstellung des Korpus

In einem Vorbeitrag haben wir gesehen, wie der Korpus – die Basis für das neuronale Netz der KI – erstellt wird. Das neuronale Netz kann den Korpus auf raffinierte Weise interpretieren, aber selbstverständlich kann das neuronale Netz nichts aus dem Korpus herausziehen, was nicht drin steckt.

Das neuronale Netz holt das Wissen aus seinem Korpus
Abb. 1: Das neuronale Netz holt das Wissen aus seinem Korpus

Wie wird der Korpus erstellt? Ein Fachexperte ordnet Bilder einer bestimmten Klasse, einem bestimmten Typus zu, z.B. ‹fremde Panzer› versus ‹eigene Panzer›. Diese Zuordnungen des Experten sind in Abb. 2 die roten Pfeile, welche z.B. die Panzerbilder bewerten.

Abb. 2: Erstellung der Zuordnungen im Korpus
Abb. 2: Erstellung der Zuordnungen im Korpus

Selbstverständlich müssen die durch den menschlichen Experten erfolgten Zuordnungen der einzelnen Bilder zu den Zielkategorien korrekt sein. Doch das reicht nicht. Es bestehen prinzipielle Grenzen für die Auswertbarkeit eines Korpus durch ein noch so raffiniertes neuronales Netz.

Der Zufall regiert im zu kleinen Korpus

Wenn ich nur farbige Bilder der eigenen und schwarzweisse Bilder der fremden Panzer habe (siehe Einstiegsbeitrag zur KI), dann kann sich das System leicht irren und alle farbigen der eigenen und die schwarzweissen der fremden Armee zuordnen. Mit einem genügend grossen Korpus kann dieser Mangel zwar behoben werden, doch zeigt das Beispiel, wie wichtig die richtige Bestückung des Korpus ist. Wenn ein Zufall (farbig/schwarzweiss) entscheidend in den Korpus hineinspielt, wird das System falsche Schlüsse ziehen. Der Zufall spielt dabei eine umso grössere Rolle, je kleiner der Korpus, aber auch je grösser die Anzahl der möglichen ‹Outcomes› (= Anzahl der prinzipiell möglichen Resultate) ist.

Neben diesen relativen Hindernissen gibt es aber auch prinzipielle Grenzen der Auswertbarkeit eines KI-Korpus. Darauf gehen wir jetzt ein.

Raupen- oder Radpanzer?

Was im Korpus nicht drin ist, kann auch nicht herausgeholt werden. Selbstverständlich kann ich mit einem Panzer-Korpus keine Flugzeuge klassifizieren.

Neuronales Netz mit Panzern
Abb 3: Die Bewertung entscheidet – Korpus mit eigenen und fremden Panzern und entsprechend programmiertem Netz.

Was aber ist, wenn unser Panzersystem herausfinden soll, ob es sich um Raupen- oder um Radpanzer handelt? Im Prinzip können im Korpus ja Bilder von beiden Sorten von Panzern enthalten sein. Wie kann die Panzer-KI aus unserem Beispiel das erkennen?

Die einfache Antwort ist: gar nicht. Im Korpus hat das System zwar viele Bilder von Panzern und weiss bei jedem, ob es ein fremder oder eigener ist. Aber ist es ein Radpanzer oder nicht? Diese Information steckt im Korpus (noch) nicht drin und kann deshalb von der KI nicht herausgezogen werden. Zwar kann ein Mensch jedes einzelne Bild entsprechend beurteilen, so wie er das mit der Eigenschaft ‹fremd/eigen› gemacht hat. Aber dann ist es eine KI-fremde, von aussen zugeführte Intelligenz, die das tut. Das neuronale Netz kann das nicht selber leisten, da es nichts über Raupen oder Räder weiss. Es hat nur gelernt, eigene von fremden Panzern zu unterscheiden. Für jede neue Kategorie muss zuerst die Information in den Korpus gegeben (neue rote Pfeile in Abb. 2) und dann das neuronale Netz für die neuen Fragen geschult werden.

Eine solche Schulung muss zwar nicht zwingend am Panzer-Korpus erfolgen. Das System könnte auch anhand eines Korpus von ganz anderen Fahrzeugen lernen, ob sich diese sich auf Rädern oder Raupen bewegen. Auch wenn sich der Unterschied automatisch auf den Panzerkorpus übertragen lässt, muss doch das externe Räder/Raupen-System vorgängig trainiert werden – und zwar mit Zuordnungen, die wieder ein Mensch gemacht hat.

Selber, ohne vorgegebene Beispiele, findet das KI-System dies nicht heraus.

Fazit

  1. Aus einem Korpus können nur Schlüsse gezogen werden, die im Korpus angelegt sind.
  2. Die Kategorie-Zuordnungen (die roten Pfeile in Abb. 2) kommen immer von aussen, d.h. von einem Menschen.

In unserem Beispiel haben wir mit dem Panzerbeispiel eine typische Bilderkennungs-KI untersucht. Aber gelten die daraus gezogenen Schlüsse (siehe Fazit oben) auch für andere korpusbasierte Systeme? Und gibt es nicht so etwas wie ‹Deep Learning›, also die Möglichkeit, dass ein KI-System ganz von selber lernt?

Schauen wir deshalb im nächsten Beitrag einen ganz anderen Typ mit korpusbasierter KI an.


Dies ist ein Beitrag zum Thema künstliche Intelligenz.


 

Korpusbasierte KI: Wo steckt die Intelligenz?

Vorbemerkung

Im Vorbeitrag haben wir gesehen, dass bei der regelbasierten KI die Intelligenz in den Regeln steckt. Diese Regeln sind menschengemacht und das System ist so intelligent wie die Menschen, die die Regeln geschrieben haben. Wie sieht das nun bei der korpusbasierten Intelligenz aus?

Die Antwort ist etwas komplizierter als bei den regelbasierten Systemen. Schauen wir deshalb den Aufbau eines solchen korpusbasierten Systems genauer an. Er geschieht in drei Schritten:

  1. Erstellen einer möglichst grossen Datensammlung (Korpus)
  2. Bewertung dieser Datensammlung
  3. Training des neuronalen Netzes (Lernphase)

Sobald das Netz erstellt ist, kann es angewendet werden:

  1.  Anwendung des neuronalen Netzes

Schauen wir die vier Schritte genauer an und überlegen wir uns dabei, worauf es ankommt und wo die Intelligenz in das korpusbasierte System hineinkommt.

Schritt 1: Erstellung der Datensammlung

In unserem Panzerbeispiel besteht der Korpus (die Datensammlung) aus Photographien von Panzern. Bilder sind typisch für korpusbasierte Intelligenz, aber die Sammlung kann natürlich auch andere Informationen enthalten, z.B. Suchanfragen von Kunden einer Suchmaschine oder GPS-Daten von Handys. Typisch ist, dass die Daten von jedem einzelnen Eintrag aus so vielen Einzelelementen (z.B. Pixeln) bestehen, dass Ihre Auswertung mit bewusst von Menschen konstruierten Regeln zu aufwendig wird. Dann lohnt sich ein regelbasiertes System nicht mehr.

Die Sammlung der Daten reicht aber nicht aus. Sie müssen jetzt auch bewertet werden.

Schritt 2: Bewertung des Korpus
Korpusbasiertes System
Abb. 1: Korpusbasiertes System

Abb. 1 zeigt das bereits bekannte Bild aus unserem Panzerbeispiel. Auf der linken Seiten sehen Sie den Korpus. Dieser ist in der Abbildung bereits bewertet, die Bewertung ist symbolisiert durch die kleinen schwarzen und grünen Fähnchen (Flags) links an jedem Panzerbild.

Man kann sich den bewerteten Korpus vereinfacht als eine zweispaltige Tabelle vorstellen. In der linken Spalte sitzt die Bildinformation, in der rechten die Bewertung und der Pfeil dazwischen ist die Zuordnung, die somit ein wesentlicher Teil des Korpus wird, sie sagt nämlich, zu welcher Kategorie (e oder f) das jeweilige Bild gehört, wie es also bewertet wird.

Korpus mit Bewertungen
Tabelle 1: Korpus mit Bewertungen (e=eigen, f=fremd)

Typischerweise sind die Informationsmengen in den beiden Spalten von sehr unterschiedlicher Grösse. Während die Bewertung in der rechten Spalte in unserem Panzerbeispiel aus genau einem Bit besteht, enthält das Bild der linken Spalte alle Pixel der Photographie; zu jedem Pixel sind Lage, Farbe usw. abgespeichert, also eine ziemlich grosse Datenmenge. Dieser Unterschied im Grössenverhältnis ist typisch für korpusbasierte Systeme – und falls Sie philosophisch interessiert sind, möchte ich auf den Bezug zum Thema Informationsreduktion und Entropie hinweisen . Im Moment geht es uns aber um die Intelligenz in den korpusbasierten KI-Systemen und wir halten dazu fest, dass im Korpus zu jedem Bild seine korrekte Zielkategorie fest zugeordnet wird.

Bei dieser Zuordnung wissen wir nicht, wie sie geschieht, denn sie wird durch einen Menschen durchgeführt, mit den Neuronen in seinem eigenen Kopf, deren genaues Verhalten ihm wohl kaum bewusst ist. Er könnte also nicht Regeln dafür angeben. Hingegen weiss er, was die Bilder darstellen, und vermerkt das im Korpus, eben mit der Zuordnung der entsprechenden Kategorie. Diese Zuordnung kommt von aussen durch den Menschen in den Korpus, sie ist zu hundert Prozent menschengemacht. Gleichzeitig ist diese Bewertung eine absolute Bedingung und die Grundlage für den Aufbau des neuronalen Netzes. Auch später, wenn das fertig trainierte neuronale Netz den Korpus mit den von aussen eingebrachten Zuordnungen nicht mehr braucht, war er doch vorher notwendig, damit das Netz überhaupt entsteht und arbeiten kann.

Woher stammt also die Intelligenz bei der Zuordnung der Kategorien e) und f)? Es ist letztlich ein Mensch, der diese Zuordnung macht und auch falsch machen kann; es handelt sich um seine Intelligenz. Sobald die Zuordnung im Korpus einmal notiert ist, handelt es sich nicht mehr um aktive Intelligenz, sondern um fixiertes Wissen.

Bewertung des Korpus
Abb. 2: Bewertung des Korpus

Die Bewertung des Korpus ist eine entscheidende Phase, und Intelligenz ist dabei zweifellos nötig. Die zusammen getragene Datensammlung muss bewertet werden und der Fachexperte, der diese Bewertung durchführt, muss garantieren, dass sie korrekt ist. In Abb. 2 ist die Intelligenz des Fachexperten durch den gelben Kreis repräsentiert. Der Korpus erhält das so erstellte Wissen über die Zuordnungen; die Zuordnungen selber sind in Abb. 2 als rote Pfeile dargestellt.

Wissen ist etwas anderes als die Intelligenz. Es ist einem gewissen Sinn passiv. In diesem Sinn handelt es sich bei den im Korpus festgehaltenen Informationen um Wissensobjekte, d.h. um Zuordnungen, die formuliert sind und nicht mehr bearbeitet werden müssen. Intelligenz hingegen ist ein aktives Prinzip, das selber Wertungen vornehmen kann, so wie es der menschliche Experte tut. Bei den Elementen im Korpus aber handelt es sich um Daten oder dann bei den erwähnten Zuordnungen um Resultate der Intelligenz von Experten – also um fest formuliertes Wissen.

Um dieses Wissen von der Intelligenz zu unterscheiden, habe ich es in Abb. 2 nicht gelb, sondern grün markiert.

Wir unterscheiden somit sinnvollerweise drei Dinge:

Daten (die Datensammlung im Korpus)
Wissen (die durchgeführte Bewertung dieser Daten)
Intelligenz (die Fähigkeit, diese Bewertung durchzuführen).

Schritt 3: Training des neuronalen Netzes
Lernphase
Abb. 3: Das neuronale Netz lernt das Wissen des Korpus

In der Trainingsphase wird auf Basis des Lernkorpus das neuronale Netz aufgebaut. Damit das funktioniert, ist wieder eine beträchtliche Intelligenz notwendig, diesmal kommt sie vom KI-Experten, der das Funktionieren der Lernphase ermöglicht und steuert. Dabei spielen Algorithmen eine Rolle, die dafür verantwortlich sind, dass das Wissen im Korpus korrekt ausgewertet wird und das neuronale Netz genau die Form erhält, die bewirkt, dass alle im Korpus festgehaltenen Zuordnungen auch durch das Netz nachvollzogen werden können.

Die Wissensextraktion und die dabei verwendeten Algorithmen sind durch den braunen Pfeil zwischen Korpus und Netz symbolisiert. Wenn man will, kann man ihnen durchaus eine gewisse Intelligenz zubilligen, doch sie tun nichts, was nicht vom IT-Experten bzw. vom Wissen im Korpus vorgegeben wird. Das entstehende neuronale Netz selber hat keine eigene Intelligenz, sondern ist das Ergebnis dieses Prozesses und somit der Intelligenz der Experten. Es enthält aber beträchtliches Wissen und ist deshalb in Abb. 3 grün dargestellt, wie das Wissen im Korpus in Abb. 2. Im Gegensatz zum Korpus sind die Zuweisungen (rote Pfeile) aber jetzt wesentlich komplexer, genau so, wie es in einem neuronalen Netz eben komplexer zu und her geht als in einer einfachen zweispaltigen Tabelle (Tabelle 1).

Und noch etwas unterscheidet das Wissen im Netz vom Wissen im Korpus: Im Korpus handelt es sich um Wissen über Einzelfälle, im Netz hingegen ist das Wissen abstrakt. Es kann deshalb auch auf bisher unbekannte Fälle angewendet werden.

Schritt 4: Anwendung
Anwendung eines neuronalen Netzes
Abb. 4: Anwendung eines neuronalen Netzes

In Abb. 4 wird ein bisher unbekanntes Bild vom neuronalen Netz bewertet und entsprechend dem im Netz gespeicherten Wissen kategorisiert. Dabei ist kein Korpus und auch kein Experte mehr nötig, es reichen die ‚geschulten‘, aber jetzt feststehenden Verdrahtungen im neuronalen Netz. Das Netz ist in diesem Moment nicht mehr in der Lage, etwas dazuzulernen. Es ist aber fähig zu durchaus eindrücklichen Leistungen mit ganz neuem Input. Diese Leistungen werden ermöglicht durch die vorgängigen Arbeiten, also den Aufbau des Korpus, die in ihm enthaltenen, (hoffentlich) korrekten Bewertungen und den Algorithmen der Lernphase. Hinter dem Lernkorpus steckt die menschliche Intelligenz des Fachexperten, hinter den Algorithmen der Trainingsphase die menschliche Intelligenz des IT-Experten.

Fazit

Was uns als künstliche Intelligenz erscheint, ist das Resultat der durchaus menschlichen, d.h. natürlichen Intelligenz der Fachexperten und IT-Spezialisten.


Dies ist ein Beitrag zum Thema künstliche Intelligenz. Im nächsten Beitrag schauen wir noch genauer hin. Wir schauen, was für Wissen in einem Korpus wirklich steckt. Und was die KI aus dem Korpus herausholen kann und was nicht.

Vergleich der Entwicklung der beiden KI-Methoden

Zwei KI-Methoden und ihre Herausforderungen

In meinem ersten Beitrag zur KI  habe ich die beiden bereits in den 90er-Jahren verwendeten, sehr unterschiedlichen KI-Methoden skizziert. Beide Methoden waren damals nicht in Hochform. Folgende Mängel standen ihnen im weg:

Bei der korpusbasierten waren es:
– Die Intransparenz der Schlussfolgerungs-Wege
– Die Notwendigkeit, einen sehr grossen und korrekten Lernkorpus aufzubauen.

Bei der regelbasierten waren es:
– Die Rigidität der mathematischen Logik
– Die Unschärfe unserer Wörter
– Die Notwendigkeit, sehr grosse Wissensbasen manuell aufzubauen
– Die Notwendigkeit, teure und seltene Fachexperten einzusetzen.

Was wurde seit den 90er-Jahren verbessert?

Wir haben den phänomenalen Aufschwung der korpusbasierten Technik erlebt; praktisch alles, was heute KI genannt wird, funktioniert über die korpusbasierte Methode und ist in der Tat sehr eindrücklich.

Im Gegensatz dazu waren die Hindernisse für die regelbasierte Methode – rigide Logik und vieldeutige Begriffe – nicht so leicht zu überwinden. Sie machten einen Paradigmenwechsel erforderlich, eine grundlegende Änderung der Denkweise: Weg von der Sicherheit der traditionellen Logik hin zu einem offenen System. Diesen Schritt wollten die akademischen Teams nicht gehen, weshalb die traditionelle regelbasierte Methode mehr oder weniger dort blieb, wo sie war. Die Hindernisse sind zwar nicht unüberwindlich, wie der Erfolg z.B. unserer Begriffsmoleküle zeigt, doch diese neue regelbasierte Methoden ist kaum bekannt.

Verbreitung der KI-Methoden im Verlauf der Zeit

Abb 1: Schätzung der Verbreitung der KI-Methoden.
Die Vertikalachse ist vertikal gestaucht, d.h. die Grössenverhältnisse sind noch drastischer als dargestellt. Die Kurve ist zudem oben abgeschnitten, da die exponentielle Zunahme der korpusbasierten Methode den Rahmen sprengen würde.

In Abb. 1 habe ich versucht darzustellen, wie sich der Einsatz der Methoden im Verlauf der Zeit verändert hat.  Während die korpusbasierten Methoden (grün) ihre Verbreitung exponentiell gesteigert haben, sind die regelbasierten (blau) praktisch stationär geblieben. Die verbesserte regelbasierte Methode der Begriffsmoleküle (gelb) wird zur Zeit erst marginal eingesetzt.


Dies ist ein Beitrag zum Thema künstliche Intelligenz (KI). Aber ist der Name überhaupt korrekt? Sind diese Systeme wirklich intelligent? Schauen wir als erstes die regelbasierte Intelligenz an.

Die drei Neuerungen der regelbasierten KI

Haben die neuronalen Netze die regelbasierten Systeme abgehängt?

Es ist nicht zu übersehen: Die korpusbasierte KI hat die regelbasierte KI um Längen überholt. Neuronale Netze machen das Rennen, wohin man schaut. Schläft die Konkurrenz? Oder sind regelbasierte Systeme schlicht nicht in der Lage, gleichwertige Ergebnisse wie neuronale Netze zu erzielen?

Meine Antwort ist, dass die beiden Methoden aus Prinzip für sehr unterschiedliche Aufgaben prädisponiert sind. Ein Blick auf die jeweiligen Wirkweisen macht klar, wofür die beiden Methoden sinnvollerweise eingesetzt werden. Je nach Fragestellung ist die eine oder die andere im Vorteil.

Trotzdem bleibt das Bild: Die regelbasierte Variante scheint auf der Verliererspur. Woher kommt das?

In welcher Sackgasse steckt die regelbasierte KI?

Meines Erachtens hat das Hintertreffen der regelbasierten KI damit zu tun, dass sie ihre Altlasten nicht loswerden will. Dabei wäre es so einfach. Es geht darum:

  1. Semantik als eigenständiges Wissensgebiet zu erkennen
  2. Komplexe Begriffsarchitekturen zu verwenden
  3. Eine offene und flexible Logik (NMR) einzubeziehen.

Wir tun dies seit über 20 Jahren mit Erfolg. Andernorts allerdings ist
die Notwendigkeit dieser drei Neuerungen und des damit verbundenen Paradigmenwechsels noch nicht angekommen.

Was bedeuten die drei Punkte nun im Detail?

Punkt 1: Semantik als eigenständiges Wissensgebiet erkennen

Üblicherweise ordnet man die Semantik der Linguistik zu. Dem wäre im Prinzip nichts entgegen zu halten, doch in der Linguistik lauert für die Semantik eine kaum bemerkte Falle: Linguistik beschäftigt sich mit Wörtern und Sätzen. Der Fehler entsteht dadurch, dass man die Bedeutung, d.h. die Semantik, durch den Filter der Sprache sieht und glaubt, ihre Elemente auf die gleiche Weise anordnen zu müssen, wie die Sprache das mit den Wörtern macht. Doch die Sprache unterliegt einer entscheidenden Einschränkung, sie ist linear, d.h. sequenziell: Ein Buchstabe kommt nach dem anderen, ein Wort nach dem anderen.  Es ist nicht möglich, Wörter parallel nebeneinander zu setzen. Im Denken können wir das aber. Und wenn wir die Semantik von etwas untersuchen, geht es darum, wie wir denken und nicht, wie wir sprechen.

Wir müssen also Formalismen finden für die Begriffe, wie sie im Denken vorkommen. Die Beschränkung durch die lineare Anordnung der Elemente und die sich daraus ergebende Notwendigkeit, behelfsweise und in jeder Sprache anders mit grammatikalischen Kunstgriffen Klammerungen und komplexe Beziehungsstrukturen nachzubilden, diese Beschränkung gilt im Denken nicht und wir erhalten dadurch auf der semantischen Seite ganz andere Strukturen als auf der sprachlichen Seite.

Wort ≠ Begriff

Was sicher nicht funktioniert, ist eine simple «semantische Annotation» von Wörtern. Ein Wort kann viele, sehr unterschiedliche Bedeutungen haben. Eine Bedeutung (= ein Begriff) kann durch unterschiedliche Wörter ausgedrückt werden. Wenn man Texte analysieren will, darf man nicht die einzelnen Wörter, sondern muss immer den Gesamtkontext ansehen. Nehmen wir das Wort «Kopf». Wir sprechen z.B. vom Kopf eines Briefes oder vom Kopf eines Unternehmens. Wir können nun den Kontext in unseren Begriff hineinnehmen, indem wir den Begriff <Kopf< mit anderen Begriffen verbinden. So gibt es einen <Körperteil<Kopf< und eine <Funktion<Kopf<.  Der Begriff links (<Körperteil<) sagt dann aus, von welchem Typ der Begriff rechts (<Kopf<) ist. Wir typisieren also. Wir suchen den semantischen Typ eines Begriffs und setzen ihn vor den Unterbegriff.

Konsequent komposite Datenelemente

Die Verwendung typisierter Begriffe ist nichts Neues. Wir gehen aber weiter und bilden ausgedehnte strukturierte Graphen, diese komplexen Graphen bilden dann die Basis unserer Arbeit. Das ist etwas ganz anderes als die Arbeit mit Wörtern. Die Begriffsmoleküle, die wir verwenden, sind solche Graphen, die eine ganz spezielle Struktur aufweisen, sodass sie sowohl für Menschen wie für Maschinen leicht und schnell lesbar sind. Die komposite Darstellung hat viele Vorteile, einer ist z.B. dass der kombinatorischen Explosion ganz einfach begegnet wird und so die Zahl der atomaren Begriffe und Regeln drastisch gekürzt werden kann. Durch die Typisierung und die Attribute können ähnliche Begriffe beliebig geschärft werden, wir können mit Molekülen dadurch sehr präzis «sprechen». Präzision und Transparenz der Repräsentation haben darüber hinaus viel damit zu tun, dass die spezielle Struktur der Graphen (Moleküle) direkt von der multifokalen Begriffsarchitektur abgeleitet ist (siehe im folgenden Punkt 2).

Punkt 2: Komplexe Begriffsarchitekturen verwenden

Begriffe sind in den Graphen (Begriffsmoleküle) über Relationen verbunden. Die oben genannte Typisierung ist eine solche Relation: Wenn der <Kopf< als ein <Körperteil< gesehen wird, dann ist er vom Typ <Körperteil< und es besteht eine ganz bestimmte Relation zwischen <Kopf< und <Körperteil<, nämlich eine sogenannte hierarchische oderIS-A‹-Relation – letzteres darum, weil man bei hierarchischen Relationen immer ‹IST-EIN› sagen kann, also in unserem Fall: der <Kopf< ist ein <Körperteil<.

Die Typisierung ist eine der beiden grundlegenden Relationen in der Semantik. Wir ordnen eine Anzahl Begriffe einem übergeordneten Begriff, also ihrem Typ zu. Dieser Typ ist natürlich genauso ein Begriff und er kann deshalb selber wieder typisiert werden. Dadurch entstehen hierarchische Ketten von ‹IS-A›-Relationen, mit zunehmender Spezifizierung, z.B. <Gegenstand<Möbel<Tisch<Küchentisch<. Wenn wir alle Ketten der untergeordneten Begriffe, die von einem Typ ausgehen, zusammenbinden, erhalten wir einen Baum. Dieser Baum ist der einfachste der vier Architekturtypen für die Anordnung von Begriffen.

Von dieser Baumstruktur gehen wir aus, müssen aber erkennen, dass eine blosse Baumarchitektur entscheidende Nachteile hat, die es verunmöglichen, damit wirklich präzis greifende Semantiken zu bauen. Wer sich für die verbesserten und komplexeren Architekturtypen und ihre Vor- und Nachteile interessiert, findet eine ausführliche Darstellung der vier Architekturtypen auf der Website von meditext.ch.

Bei den Begriffsmolekülen haben wir den gesamten Formalismus, d.h. die innere Struktur der Regeln und Moleküle selbst auf die komplexen Architekturen ausgerichtet. Das bietet viele Vorteile, denn die Begriffsmoleküle weisen jetzt in sich genau die gleiche Struktur auf wie die Achsen der multifokalen Begriffsarchitektur. Man kann die komplexen Faltungen der multifokalen Architektur als Gelände auffassen, mit den Dimensionen oder semantischen Freiheitsgraden als komplex verschachtelte Achsen. Die Begriffsmoleküle nun folgen diesen Achsen in ihrer eigenen inneren Struktur. Das macht das Rechnen mit den Molekülen so einfach. Mit simplen Hierarchiebäumen oder multidimensionalen Systemen würde das nicht funktionieren. Und ohne konsequent komposite Datenelemente, deren innere Struktur auf fast selbstverständliche Weise den Verzweigungen der komplexen Architektur folgt, auch nicht.

Punkt 3: Eine offene und flexible Logik (NMR) einbeziehen

Dieser Punkt ist für theoretisch vorbelastete Wissenschaftler möglicherweise der härteste. Denn die klassische Logik erscheint den meisten unverzichtbar und viele kluge Köpfe sind stolz auf ihre Kenntnisse darin. Klassische Logik ist in der Tat unverzichtbar – nur muss sie am richtigen Ort eingesetzt werden. Meine Erfahrung zeigt, dass wir im Bereich des NLP (Natural Language Processing) eine andere Logik brauchen, nämlich eine, die nicht monoton ist. Eine solche nichtmonotone Logik (NMR) erlaubt es, für das gleiche Resultat mit viel weniger Regeln in der Wissensbasis auszukommen. Die Wartung wird dadurch zusätzlich vereinfacht. Auch ist es möglich, das System ständig weiter zu entwickeln, weil es logisch offen bleibt. Ein logisch offenes System mag einen Mathematiker beunruhigen, die Erfahrung aber zeigt, dass ein NMR-System für die regelbasierte Erfassung des Sinns von frei formuliertem Text wesentlich besser funktioniert als ein monotones.

Fazit

Heute scheinen die regelbasierten Systeme im Vergleich zu den korpusbasierten im Hintertreffen zu sein. Dieser Eindruck täuscht aber und rührt daher, dass die meisten regelbasierten Systeme den Sprung in ein modernes System noch nicht vollzogen haben. Dadurch sind sie entweder:

  • nur für Aufgaben in kleinem und wohldefiniertem Fachgebiet anwendbar oder
  • sehr rigid und deshalb kaum einsetzbar oder
  • sie benötigen einen unrealistischen Ressourceneinsatz und werden unwartbar.

Wenn wir aber konsequent komposite Datenelemente und höhergradige Begriffsarchitekturen verwenden und bewusst darauf verzichten, monoton zu schliessen, kommen wir – für die entsprechenden Aufgaben – mit regelbasierten Systemen weiter als mit korpusbasierten.

Regelbasierte und korpusbasierte Systeme sind sehr unterschiedlich und je nach Aufgabe ist das eine oder das andere im Vorteil. Darauf werde ich in einem späteren Beitrag eingehen.


Dies ist ein Beitrag zum Thema künstliche Intelligenz (KI). Ein Folgebeitrag beschäftigt sich mit der aktuellen Verbreitung der beiden KI-Methoden.