Schlagwort-Archive: Künstliche Intelligenz

Vier Versuche, Semantik formal zu packen

Semantik: Was steckt hinter den Wörtern?

Das Thema Semantik interessiert heute viele Leute. Viele realisieren, dass Wörter nicht alles sind, sondern dass hinter den Wörtern Bedeutungen stecken, die sehr variabel sind und auf die es eigentlich ankommt. Gerade im Internet spielt das eine grosse Rolle. Je grösser das Netz wird, umso schwieriger wird die Suche. Was ist, wenn die gesuchte Adresse unter einem ganz anderen Wort zu finden ist, als ich annehme? Denken wir nur an die vielen Synonyme. Dazu kommen Ober- und Unterbegriffe und unterschiedliche Sprachen. Ideal wäre es, wenn ein sprachunabhängiges System der Bedeutungen existieren würde, ein System, dass Synonyme genauso kennt wie verschiedene Sprachen, Englisch, Französisch, Deutsch, Arabisch, Chinesisch etc. Dann müsste man nur noch die Wörter der jeweiligen Sprache in das semantische System hineinprojizieren. Geht das?

Versuch 1: Semantische Annotation (n:1)

Eine einfache «Semantische Annotation» ist für viele die naheliegende Lösung. Dabei gilt es, jedem Wort seine Bedeutung, d.h. seine eigentliche Semantik, zuzuweisen.

Nehmen wir eine Sprache, z.B. Deutsch und eine Domäne, z.B. Medizin. Das Ziel der semantischen Annotation wäre dann, das gesamte Vokabular der Domäne, also alle ihre Wörter auf eine grundlegende Semantik abzubilden. In dieser existiert dann ein einziger Punkt für den Begriff «Fraktur», und dieser semantische Zielpunkt wird erreicht durch Wörter wie «Fraktur», «Knochenbruch», «fracture», etc. Es handelt sich ja in der Tat um dasselbe, unabhängig davon, welche Wörter ich verwende. Das gilt auch für «Bruch», z.B. in «Beinbruch», «Bruch des Beins», «Bruch der Tibia» und «Bein gebrochen».

Alle diese Formulierungen müssen auf den gleichen semantischen Punkt kommen. Dabei können wir nicht auf die Grammatik gehen, sondern müssen Wörter auseinandernehmen können (Beinbruch), und aus Verben (gebrochen) Substantive machen können. Brüche gibt es viele, solche von Knochen, aber auch von Leisten, Ehen, Implantaten, Brillen etc. Eine einfache Annotation wird daraus kaum werden, sicher keine 1:1 oder n:1 Annotation.

Und wenn verschiedene Fachgebiete gemischt werden, wird es noch heikler: Ein Bruch ist ja nicht nur ein Knochenbruch, sondern auch ein Bruch in der Mathematik. Also etwas ganz anderes. Wie annotiere ich «Zürich»? Als Stadt, als Kanton, als Versicherung? «Berlin» kann je nach Kontext auch für das deutsche Kanzleramt stehen; ein «Berliner» ist ein Bürger oder eine Backware.

Fazit: Eine semantische Annotation ist komplex und ganz gewiss nicht mit einer einfachen n:1 Tabelle lösbar. Um wirklich semantisch zu annotieren, d.h. den Wörtern Bedeutungen zuzuweisen, muss man tiefer in die eigentliche Semantik einsteigen.

Versuch 2: Semantic Web

Initiator des Semantic Webs war der berühmte WWW-Erfinder Tim Berners-Lee. Seine Beobachtung war, dass im WWW die gesuchten Seiten zwar oft vorhanden, aber in der Fülle nicht auffindbar waren. Dem wollte er abhelfen, in dem er das Web selber semantisch machen wollte. Also nicht mehr die Anwender sollten die Semantik (Inhalte) der Internetseiten ergründen, sondern Berners-Lee’s Idee war, dass die Seitenanbieter im WWW ihre Semantik selber deklarieren. Auf diese Weise wäre gesuchte Annotation bereits verhanden. Und zwar nicht einfach als isolierter Punkt, wie «Zürich», sondern typisiert, also z.B. als «Stadt: Zürich». Die Typisierung ist ein echter und zweckmässiger Fortschritt. Der Charme der Typisierung besteht darin, dass die Mehrdeutigkeit angegangen werden. Ob Zürich nun die Stadt, den Kanton oder die Versicherung meint, kann durch ein entsprechend gebautes semantisches Netz klar unterschieden werden.

Das Problem ist nur: Welcher Seitenbetreiber macht sich die Mühe, seine Seite entsprechend semantisch zu verschlagworten? Und das Ganze funktioniert nur, wenn sich alle an das gleiche Einordnungssystem halten. Dazu kommen weitere Probleme, die sehr typisch sind für Versuche, ein semantisches Netz zu bauen. Ein solches Netz zu erstellen ist alles andere als banal, denn der Teufel steckt im Detail.

Und sobald das Netz einmal steht, kann es nicht mehr so einfach verändert werden. Das führt dann schnell zu faulen Kompromissen, Komplizierungen, Unschärfen, Varianten und Diskussionen.

Die grundlegende Frage dabei ist: Wie strukturieren wir das semantische Netz? Ich meine die abstrakte formale Struktur. Gibt es Oberbegriffe? Eigenschaften? Überschneidungen? Wie werden sie formal dargestellt? Gibt es eine «Logik» in der Semantik? Wir sind hier im Kern der wissenschaftlichen Semantik und meine Behauptung ist, dass die Scientific Community hier noch einiges dazuzulernen hat. Das Semantic Web basiert z.B. auf der RDF und OWL, zwei komplexen formalen Sprachen, welche kompliziert, unhandlich und trotzdem in ihren Möglichkeiten beschränkt sind.

Wenn die Annotation von den Seitenanbietern durchgeführt wird, können wir wegen des dafür nötigen Aufwands keine Durchgängigkeit und auch keine Einheitlichkeit erwarten.

Ideal wäre eine Software, welche die semantische Interpretation selbstständig und von aussen, also auf vorbestehende und frei formulierte Texte durchführen kann. Gibt es die? –

Die Antwort ist ja. Es gibt sogar zwei Herangehensweisen, die eine ist statistisch, die andere ist semantisch. Schauen wir zuerst die statistische an:

Versuch 3: Neuronale Netze (KI)

Neuronale Netze (NN) sind besser bekannt unter dem Namen «Künstliche Intelligenz«. Diese Systeme funktionieren über einen Lernkorpus, der viele Muster von Zuweisungen enthält, die vom NN maschinell  auf raffinierte Weise integriert werden. Anschliessend ermöglicht das NN weitere, bisher unbekannte Inputs auf die gleiche Weise zu verarbeiten wie im Lernkorpus. Es hat also die Interpretation «gelernt». Das kann sehr beeindruckend sein, und auch sehr nützlich. Allerdings kann das NN nichts wiedergeben, was nicht im Lernkorpus auf ähnliche Weise vorgegeben war. Die bekannten Schwächen der NN sind:

– Riesiger Lernkorpus nötig.
– Nur was im Korpus enthalten ist, kann erkannt werden.
– Seltenes mit grossen Auswirkungen (Black Swan) wird übersehen.
– Intransparenz der Schlüsse.
– Fehler im Korpus sind kaum korrigierbar.

Trotzdem sind Neuronale Netze für viele Anwendungen unglaublich effizient. Doch sie sind nicht semantisch. Sie urteilen nicht nach den Bedeutungen der Wörter, sondern nach statischen Gesichtspunkten. Was häufig zusammen vorkommt, gehört für sie zusammen. Das ist natürlich alles andere als sicher. Seltenere Bedeutungen fallen so unter den Tisch. Und was bedeuten die Wörter und Sätze überhaupt? Neuronale Netze zeigen nur statistische Nähe und überlassen die Bedeutungen dem Leser. Formale Musterekennung ist eine Stärke der Neuronalen Netze. Semantik nicht. Die Lösungen von Versuch 2, das Semantic Web der RDFs and OWL waren da schon näher dran.

Allerdings: In der Praxis haben die NN der kommerziellen Software-Anbieter die akademisch fundierten Versuche des Semantic Webs deutlich überholt. Die NN sind zwar nicht semantisch, aber sie sind im gegensatz zum Semantic Web real einsetzbar.

Ideal wäre jedicg eine Lösung, welche die Bedeutungen der Wörter auf eine ähnliche Weise findet, wie wir Menschen. Also ein Ansatz, der wirklich semantisch ist. Gibt es diesen?

Versuch 4: Begriffsmoleküle (BM)

Begriffsmoleküle sind eine Parallelentwicklung zum Semantic Web. Wie dieses setzen sie eine semantische Modellierung der anvisierten Wissensdomäne voraus. Der Unterschied liegt in der Art, wie die Semantik modelliert wird und wie Schlüsse gezogen werden. Sowohl das OWL des Semantic Web wie die alternativen Begriffsmoleküle sind regelbasiert, im Gegensatz zu den Neuronalen Netzen der KI, die korpusbasiert sind. Als regelbasierte Systeme sind OWL und BM transparent und können Schritt für Schritt untersucht werden. Ihre Begriffe zeigen eine klare Anordnung (semantische Architektur). Ihre Schlüsse sind formal geregelt. Das ist die Gemeinsamkeit. Der Unterschied liegt in der Art der semantischen Architektur und der Art der Schlussziehung (Inferenzmechanismus). Generell lässt sich sagen, dass die BM freier und offener sind als OWL.

Wie ist es möglich, eine freie und dynamische Semantik darzustellen und dabei so formal zu bleiben, dass unsere Gedanken für eine Maschine nachvollziehbar ist? Begriffsmoleküle versuchen genau das. Es geht dabei darum, zu modellieren, wie wir den gehörten Wörtern Bedeutungen zulegen.


Dies ist ein Beitrag zum Thema Semantik.


 

Die 21. Reise und die künstliche Intelligenz

Littering im Weltraum ist nicht erst seit Elon Musks Starlink-Programm ein Thema und aktuell werden verschiedene Methoden zur Reinigung des zunehmend vermüllten Weltraums rund um unserer Erde diskutiert. Die Aufgabe ist nicht einfach, weil – aufgrund des zweiten Hauptsatzes, nämlich der unausweichlichen Entropiezunahme – jede Vermüllung die Tendenz hat, exponentiell zuzunehmen. Wenn eines der Tausenden von Schrottteilen im Weltraum von einem anderen Schrottteil getroffen wird, entstehen aus dem einen getroffenen Stück viele neue, mit irrer Geschwindigkeit herumfliegende Teile. Das Weltraumvermüllung ist also ein Selbstläufer mit zunehmend exponentieller Tendenz.

Aber kennen wir dieses Problem nicht schon lange? In den 60-er Jahren hatte der polnische Schriftsteller Stanislaw Lem bereits darüber geschrieben. Ich holte deshalb seine Zusammenstellung der Reisen des Kosmonauten Ijon Tichys hervor. In der 21. seiner Reisen trifft dieser auf einen vermüllten Planeten. Tichy, der weitgereiste Kosmonaut, schreibt:

«Jede Zivilisation, die in der technischen Phase steckt, beginnt allmählich in den Abfällen zu versinken, die ihr gewaltige Sorgen bereiten.»

Des weiteren beschreibt Tichy, wie deshalb die Abfälle in den Weltraum rund um den Planeten entsorgt werden, dort aber neue Probleme bereiten, was Folgen hat, die auch Kosmonaut Tichy zu spüren bekommt.

Doch die 21. Reise hat es aus noch ganz anderen Gründen in sich. Das Hauptthema dieser Reise ist – wie bei vielen Geschichten von Stanislaw Lem – die künstliche Intelligenz.

Tichy trifft auf dem jetzt gereinigten Planeten nicht nur auf eine weitere unliebsame Folge des zweiten Hauptsatzes (nämlich eine entartete Biogenetik), sondern auch auf einen Mönchsorden, der aus Robotern besteht. Diese Robotor diskutieren mit Tichy über die Bedingungen und Folgen ihrer künstlichen Intelligenz. So sagt z.B. der Roboterprior über die Beweiskraft von Algorithmen:

«Die Logik ist ein Werkzeug» erwiderte der Prior, «und aus einem Werkzeug resultiert nichts. Es muss einen Schaft und eine lenkende Hand haben.» (S. 272, Lem)

Ich selber bewegte mich – ohne dass mir der Zusammenhang und die mögliche Beeinflussung meiner Gedanken durch Stanislaw Lem bewusst war – ganz auf den Spuren von Lems Roboter-Priors und schrieb:

«Eine Instanz (Intelligenz) […]  muss zwecks Beurteilung der Daten den Bezug zwischen den Daten und dem Beurteilungsziel herstellen. Diese Aufgabe ist immer an eine Instanz mit einer bestimmten Absicht gebunden.» (Straub 2021, S. 64-65)

Lem hat bereits vor 50 Jahren  formuliert, was meines Erachtens den prinzipiellen Unterschied zwischen einer Werkzeug-Intelligenz und einer belebten (d.h. biologischen) Intelligenz ausmacht – nämlich die Absicht, welche die Logik lenkt. Bei der Maschine fehlt sie, bzw. wird sie von aussen (von wem?) eingebeben. Die menschliche Intelligenz hingegen kann – wenn wir keine Roboter sein wollen – ihre Ziele selber bestimmen. Sie besteht in den Worten von Lems Prior nicht nur aus der Logik, welche von der lenkenden Hand geführt wird, sondern beinhaltet die lenkende Hand mit.

Als Konsequenz dieser Überlegung folgt für mich bezüglich KI:

Wenn wir uns der technischen Möglichkeiten der KI bedienen (und weshalb sollten wir nicht?), dann sollten wir immer auch berücksichtigen, nach welchem Ziel unsere Algorithmen ausgerichtet sind.

Literatur

  • Lem, S. (1971) Sterntagebücher, Frankfurt am Main, Suhrkamp, 1978.
  • Straub, HR. (2021) Wie die künstliche Intelligenz zur Intelligenz kommt, St. Gallen, ZIM-Verlag.
  • Nowotny, H. (2021) In AI we Trust, Power, Illusion and Control of Predictive Algorithms, Cambridge/Medford, Polity Press.

Hat der Chatbot LaMDA ein Bewusstsein?

Die Diskussion um künstliche Intelligenz bleibt  aktuell, nicht zuletzt dank den Erfolgen von Google in diesem Bereich.

Aktuell ist die Diskussion um LaMDA, eine KI, die genau darauf trainiert wurde, Dialoge so zu führen als wäre sie ein echter Mensch. Offenbar so überzeugend, dass der Google-Mitarbeiter Blake Lemoine selbst anfing, ihr ein eigenes Bewusstsein zuzugestehen und sogar erwägt haben soll, einen Anwalt für ihre Rechte als Person zu engagieren.

Zu LaMDA und Lemoine, siehe z.B. https://www.derstandard.at/story/2000136501277/streit-bei-google-um-eine-ki-die-ein-eigenes-bewusstsein

Doch nicht alle Beobachter stimmen mit Lemoine überein. Frau Sarah Spiekermann von der Wirtschaftsuniversität Wien sagt im Interview mit Radio SRF vom 23.6.22:

«Da es [Googles KI-Programm LaMDA] kein Selbst hat, liest es einfach nur vor, was eingespielt ist … Aber das gibt dem Ding natürlich kein Bewusstsein. … Ich denke, da können wir sehr sicher sein, dass es kein Selbst hat, denn zu einem Selbst gehört ein Leben … Dazu gehört eine Möglichkeit, sich selbst zu beobachten … Ich merke, dass ich selbst bin und Maschinen können diese Selbstbeobachtung nie einnehmen … sie sind immer einlesende Entitäten.» (Hervorhebungen von mir, Original: https://www.srf.ch/audio/echo-der-zeit/kann-eine-kuenstliche-intelligenz-ein-bewusstsein-entwickeln?partId=12211826)

Frau Spiekermanns Darstellung geht konform mit meiner These, dass bewusste Intelligenz notwendigerweise mit Existenz verknüpft ist. Durch die eigene Existenz ergibt sich ein eigenes, d.h. nicht von aussen bestimmtes Interesse, nämlich das Interesse, am Leben zu bleiben – ein im eigentlichen Sinn vitales Interesse.


Die philosophische Frage, was Intelligenz ausmacht, kommt uns durch die Neuronalen Netze von Google und anderen auch im Alltag immer näher. In meinem Buch ‹Das interpretierende System› unterschied ich 2001 zwischen

a) trivialen Maschinen
b) einfachen interpretierenden Systemen
c) intelligenten, d.h. selbstlernenden System.

Spannend ist vor allem der Unterschied zwischen b) und c), also zwischen nur interpretierenden Systemen (z.B. LaMDA) und wirklich intelligenten Systemen. Dazu schrieb ich:

«Beide enthalten Regeln für die Beurteilung der Umwelt. Die Frage ist, wer die Regeln erstellt. Ein interpretierendes System muss die Regeln nicht notwendigerweise selbst generieren, es reicht aus, gegebene Regeln anzuwenden, um ein interpretierendes System zu sein. Ein System hingegen, das seine Regeln selbst findet, also selbstständig lernt, ist intelligent im eigentlichen Sinn. Dabei kommt das nun schon oft erwähnte selbstreferentielle Phänomen ins Spiel: Die Regeln sind ein essentieller Bestandteil des Systems, und ein System, das seine eigenen Regeln selbst anpasst, verändert sich selbst.» (Das interpretierende System, 2001, S. 90)

Selbstreferentialität (Spiekermann: ‹Selbstbeobachtung›) ist ein notwendiges Element von echter Intelligenz. Doch nicht nur Selbst-Beobachtung gehört dazu, auch die Möglichkeit sich selber zu verändern.

Drei Beobachtungen zur Künstlichen Intelligenz / 3

Was hat die biologische der künstlichen Intelligenz voraus?

Das Unwahrscheinliche einbeziehen

Neuronale Netze bewerten die Wahrscheinlichkeit eines Ergebnisses. Dies entspricht einem sehr flachen Denkvorgang, denn nicht nur das Wahrscheinliche ist möglich. Gerade eine unwahrscheinliche Wendung kann ganz neue Perspektiven öffnen, im Leben wie im Denken. Das automatische Vorgehen der neuronalen Netze aber ist ein Denkkorsett, das stets das Wahrscheinliche erzwingt.

Detaillierter differenzieren

Neuronale Netze werden umso unpräziser, je mehr Details sie unterscheiden sollen. Schon mit wenigen Resultatmöglichkeiten (Outcomes) sind sie überfordert. Biologische Intelligenz hingegen kann sich je nach Fragestellung in sehr differenzierte Ergebniswelten eindenken, mit einer Vielfalt von Ergebnismöglichkeiten.

Transparenz suchen

Weshalb komme ich im Denken zu einem bestimmten Ergebnis? Wie ist der Denkverlauf? Nur wenn ich mein Denken hinterfragen kann, kann ich es verbessern. Neuronale Netze hingegen können ihre Schlüsse nicht hinterfragen. Sie folgern einfach das, was der Korpus und dessen von aussen erfolgte Bewertung ihnen vorgeben.

Kontext bewusst wählen

Je nach Fragestellung wählt das menschliche Denken einen Kontext mit entsprechenden Musterbeispielen und bereits erkannten Regeln. Diese Auswahl ist aktiv und stellt das bewusste Moment im Denken dar: Worüber denke ich nach?

Die Auswahl des Kontexts entscheidet natürlich auch über die möglichen Outcomes und gültigen Regelmuster. Eine aktive Bewertung und Filterung des Kontexts erbringt die biologischen Intelligenz automatisch, sie liegt jedoch ausserhalb der Möglichkeiten eines neuronalen Netzes.

Zielorientiert denken

Was habe ich für Ziele? Was ist für mich wichtig? Was hat für mich Bedeutung? – Solche Fragen richten mein Denken aus; Aristoteles spricht von der «Causa finalis», dem Wozu, d. h. dem Ziel als Beweggrund. Neuronale Netze kennen kein eigenes Ziel, d. h. dieses steckt stets in der vorgängigen Bewertung des Korpus, die von aussen erfolgt. Das Ziel ist nichts, was das neuronale Netz selbstständig oder im Nachhinein verändern kann. Ein neuronales Netz ist stets und vollständig fremdbestimmt.

Eine biologische Intelligenz hingegen kann sich über ihre Ziele Gedanken machen und das Denken entsprechend verändern und ausrichten. Diese Autonomie über die eigenen Ziele zeichnet die biologische Intelligenz aus und ist ein wesentliches Element des Ideals des freien Menschen.

Fazit in einem Satz

Die künstliche Intelligenz der neuronalen Netze ist hochpotent, aber nur für umschriebene, eng begrenzte Fragestellungen einsetzbar und hat mit wirklicher, d. h. aktiver Intelligenz nichts zu tun.


Dies ist Teil 3 aus dem Nachwort des Buches ‹Wie die künstliche Intelligenz zur Intelligenz kommt›.  –> zum Buch

Drei Beobachtungen zur Künstlichen Intelligenz / 2

Die Möglichkeiten der neuronalen Netze sind beschränkt

Der unbezweifelbare Erfolg der neuronalen Netze lässt ihre Schwächen in den Hintergrund treten. Als korpusbasierte Systeme sind neuronale Netze völlig von der vorgängig erfolgten Datensammlung, dem Korpus abhängig. Prinzipiell kann nur die Information, die auch im Korpus steckt,  vom neuronalen Netz überhaupt gesehen werden. Zudem muss der Korpus bewertet werden, was durch menschliche Experten erfolgt.

Was nicht im Korpus steckt, befindet sich ausserhalb des Horizonts des neuronalen Netzes. Fehler im Korpus oder in seiner Bewertung führen zu Fehlern im neuronalen Netz:

Intransparenz

Welche Datensätze im Korpus zu welchen Schlüssen im neuronalen Netz führen, lässt sich im Nachhinein nicht rekonstruieren. Somit können Fehler im neuronalen Netz nur mit beträchtlichem Aufwand korrigiert werden. Andererseits ist es auch nicht nötig, die Schlussfolgerungen wirklich zu verstehen. So kann ein neuronales Netz ein Lächeln auf einem fotografierten Gesicht sehr gut  erkennen, obwohl wir nicht bewusst angeben können, welche Pixelkombinationen nun genau für das Lächeln verantwortlich sind.

Kleiner Differenzierungsgrad

Wie viele Ergebnismöglichkeiten (Outcomes) kann ein neuronales Netz unterscheiden? Jedes mögliche Ergebnis muss in der Lernphase einzeln geschult und abgegrenzt werden. Dafür müssen genügend Fälle im Korpus vorhanden sein. Der Aufwand bezüglich Korpusgrösse steigt dabei nicht proportional, sondern exponentiell. Dies führt dazu, dass Fragen mit wenig Ergebnismöglichkeiten von neuronalen Netzen sehr gut, solche mit vielen unterschiedlichen Antworten nur mit überproportionalem Aufwand gelöst werden können.

Am besten eignen sich deshalb binäre Antworten, z. B. Ist der Twittertext von einer Frau oder einem Mann geschrieben? Zuweisungen mit vielen Outcome-Möglichkeiten hingegen eignen sich schlecht.

(Fortsetzung folgt)


Dies ist Teil 2 aus dem Nachwort des Buches ‹Wie die künstliche Intelligenz zur Intelligenz kommt›.  –> zum Buch


Mehr zum Thema Künstliche Intelligenz

Drei Beobachtungen zur Künstlichen Intelligenz / 1

KI umfasst mehr als nur neuronale Netze

Neuronale Netze sind potent

Was unter Künstlicher Intelligenz (KI) allgemein verstanden wird, sind sogenannte Neuronale Netze.

Neuronale Netze sind potent und für ihre Anwendungsgebiete unschlagbar. Sie erweitern die technischen Möglichkeiten unserer Zivilisation massgeblich auf vielen Gebieten. Trotzdem sind neuronale Netze nur eine Möglichkeit, ‹intelligente› Computerprogramme zu organisieren.

Korpus- oder regelbasiert?

Neuronale Netze sind korpusbasiert, d. h. ihre Technik basiert auf einer Datensammlung, dem Korpus, der von aussen in einer Lernphase Datum für Datum bewertet wird. Das Programm erkennt anschliessend in der Bewertung der Daten selbständig gewisse Muster, die auch für bisher unbekannte Fälle gelten. Der Prozess ist automatisch, aber auch intransparent.

In einem realen Einzelfall ist nicht klar, welche Gründe für die Schlussfolgerungen herangezogen worden sind. Wenn der Korpus aber genügend gross und korrekt bewertet ist, ist die Präzision der Schlüsse ausserordentlich hoch.

Grundsätzlich anders funktionieren regelbasierte Systeme. Sie brauchen keine Datensammlung, sondern eine Regelsammlung. Die Regeln werden von Menschen erstellt und sind transparent, d. h. leicht les- und veränderbar. Regelbasierte Systeme funktionieren allerdings nur mit einer adäquaten Logik (dynamische, nicht statische Logik) und einer für komplexe Semantiken geeigneten, multifokalen Begriffsarchitektur; beides wird in den entsprechenden Hochschulinstituten bisher kaum gelehrt.
Aus diesem Grund stehen regelbasierte Systeme heute eher im Hintergrund, und was allgemein unter künstlicher Intelligenz verstanden wird, sind neuronale Netze, also korpusbasierte Systeme.

(Fortsetzung)


Dies ist Teil 1 aus dem Nachwort des Buches ‹Wie die künstliche Intelligenz zur Intelligenz kommt›.  –> zum Buch


Mehr zum Thema Künstliche Intelligenz

Aktuelle Pressetexte zur Künstlichen Intelligenz

Meine These, dass sogenannte KI-Programme zwar ausserordentlich leistungsfähig sind, doch ihre Intelligenz bestenfalls geborgt haben und zu eigenständigen Denkleistungen aus prinzipiellen Gründen nicht imstande sind, wird zunehmend auch von anderen Seiten unterstützt.


Hier drei Publikationen mit dieser Stossrichtung:

  1. St. Galler Tagblatt, 3. August 2021, Christoph Bopp: «Dr. Frankenstein verwirrte die Künstliche Intelligenz«:
    https://www.tagblatt.ch/leben/ki-uund-medizin-doktor-frankenstein-verwirrte-die-kuenstliche-intelligenz-ld.2169958
    .
  2. The Gradient: 3. August 2021, Valid S. Saba: «Machine Learning Won’t Solve Natual Language Understanding«:
    https://thegradient.pub/machine-learning-wont-solve-the-natural-language-understanding-challenge/
    .
  3. Neue Zürcher Zeitung, 17. August 2021, Adrian Lobe: «Man kann Algorithmen zu Kommunisten erziehen, aber sie können auch zu Rassisten werden, wenn sie in schlechte Gesellschaft geraten»
    https://www.nzz.ch/feuilleton/wie-die-black-box-lernt-bots-kann-man-zu-rassisten-machen-ld.1636315?ga=1&kid=nl165_2021-8-16&mktcid=nled&mktcval=165_2021-
    08-17

Diese Texte zeigen beispielhaft,

  •  wie der Lern-Korpus das Ergebnis der KI bestimmt (NZZ über den chinesischen Chatbot):
    Bei Neuronalen Netzen gilt bekanntlich: «Garbage In, Garbage Out» – der Korpus bestimmt was überhaupt erkennbar ist und was «wahr» ist, die KI kann nur ausgeben, was der Korpus vorgibt.
  • wie komplexe Sachverhalte in einem noch unklaren Kontext für KI-Systeme schlecht durchschaubar sind (Tagblatt über falsche Prognosen in der Covid-Epidemie):
    Bei komplexen Sachverhalten nimmt der Bedarf an Korpusdaten überproportional zu. Die rein technischen Probleme sind dabei noch die kleinsten.
  • wo die wirklichen Herausforderungen für NLP liegen (The Gradient über Natural Language):
    Dieser aktuelle Text aus den USA stellt die gleichen Thesen auf und verwendet gleiche Argumentationslinien wie ich z.B. in meinem Buch von 2001, dass nämlich die Semantik, also die Bedeutung eines Textes im Kopf verstanden werden muss – und genau das kann die KI der Neuronalen Netze eben nicht.

Die KI der Neuronalen Netze bleibt allerdings eine hochpotente, sinnvolle und hilfreiche Technologie – nur müssen wir wissen, was sie kann und was nicht.

Künstliche Intelligenz: Daniel Kehlmann und CTRL

Ist künstliche Intelligenz intelligent? Oder kann sie es werden?

Der bekannte Schriftsteller Daniel Kehlmann («Die Vermessung der Welt») hat letztes Jahr mit einem Sprachalgorithmus (CTRL) in Silicon Valley  zusammen den Versuch unternommen, eine Kurzgeschichte zu schreiben. Fasziniert und gleichzeitig kritisch berichtet er über dieses aufschlussreiche Experiment.

CTRL

Das Programm CTRL ist ein typisches corpusbasiertes KI-System, d.h. ein System mit einer grossen Datensammlung – dem Corpus – und einem statistisch funktionierenden Auswertungsalgorithmus. Konkret haben die Betreiber den Corpus von CTRL mit Hunderttausenden von Büchern, Zeitungen und Online-Foren gefüttert, wodurch das System auf ein Gedächtnis aus Abermillionen von Sätzen zurückgreifen kann. Die Auswertung dieses Datenschatzes erfolgt aufgrund der Wahrscheinlichkeit: Wenn statistisch auf Wort A das Wort B das wahrscheinlichste ist, bringt das System nach Wort A auch das Wort B. Dank des immensen Corpus kann sich das System darauf verlassen, dass A nach B für uns durchaus eine wohlklingende Fortsetzung des Textes ist. Die schiere Wahrscheinlichkeit ist ist das Prinzip jeder korpusbasierten KI.

Natürlich ist anzunehmen, dass die Betreiber nicht nur die unmittelbaren Nachbarwörter berücksichtigen, sondern die Tiefenschärfe um das Ausgangswort weitreichender einstellen, also mehr Kontext berücksichtigen, doch stets gilt auch bei der Fortschreibung des gemeinsamen Textes durch Kehlmann und CTRL, dass der Algorithmus den bisher geschriebenen Text mit seinem grossen Corpus vergleicht und dann die Fortsetzung basierend auf der Wahrscheinlichkeit in seinem Korpus vorschlägt. Dadurch wird uns die Fortsetzung stets irgendwie vertraut und möglich vorkommen. – Wird sie aber auch sinnvoll sein? Wir kommen hier an die Grenzen jeder corpusbasierten Intelligenz: Das Wahrscheinlichste ist nicht immer das Beste.

Die Grenzen von CTRL

Daniel Kehlmann beschreibt die gemeinsame kreative Welt, die er zusammen mit dem Programm CTRL erkundet hat, gleichzeitig fasziniert und kritisch. Kritisch vermerkt er u.a. folgende Mängel:

a) Abstürze des Algorithmus
Beim Experiment ist es nicht gelungen, eine Kurzgeschichte über eine bestimmte Länge weiterzuschreiben; offenbar war dann der Algorithmus rechnerisch nicht in der Lage, die Informationen der bisherigen Geschichte kohärent mit dem Corpus zusammenzubringen. Sobald die Geschichte über einige Sätze hinausging, stürzte das Programm regelmässig unrettbar ab – Ende der Gesichte.

Meines Erachtens ist das kein KO-Kriterium, denn Abstürze eines neuen Programms sind stets zu erwarten (ich weiss, wovon ich spreche … ). Zudem erwecken solche Abstürze stets den Eindruck, als könnten sie mit noch besserer Hardware und robusteren Algorithmen überwunden werden.

Doch dies ist m.E. hier nicht der Fall. Ich glaube vielmehr, dass diese Abstürze einen grundsätzlichen Schwachpunkt der corpusbasierten KI offenbaren, der auch mit verbesserter Hardware und besseren Auswertungsalgorithmen nicht angegangen werden kann. Der Mangel liegt vielmehr prinzipiell in der wahrscheinlichkeitsbasierten Anlage dieser corpusbasierten Programme. Je mehr Kontext (Tiefenschärfe) sie berücksichtigen müssen, umso grösser muss ihr Corpus werden. Doch der Bedarf an Daten und Rechenpower wächst, wenn es um die Vergrösserung des Kontexts geht, nicht linear, sondern exponentiell. Selbst wenn der riesige Corpus und die immense Rechenpower von CTRL weiter vergrössert werden würden, stösst ein solches Programm systembedingt immer und rasch an seine Grenzen.

Um Sinn und Bedeutung einzufangen, braucht es grundsätzlich andere Methoden, solche, die Bedeutung nicht indirekt aus statistischen Daten ausmitteln, sondern sie direkt repräsentieren und behandeln. Erst dann können die Programme direkt mit Bedeutung umgehen.

b) Zweitverwertung
CTRL kennt nichts Neues, dafür Abermillionen alter Sätze. Dies birgt die Gefahr des «Garbage In, Garbage Out». Wenn Fehler oder Schwächen in den bisherigen Texten vorhanden sind, können sie auch in den Sätzen von CTRL auftauchen. Diese Gefahr ist zwar an sich klein, denn durch die grosse Menge an Sätzen wird es wahrscheinlicher, dass gleiche korrekte Sätze auftauchen als gleiche falsche, und somit wird CTRL sicher nur grammatikalisch, oder mindestens umgangssprachlich korrekte Sätze liefern. Doch trifft dies auch auf den Inhalt zu?

Wenn mehrere Menschen den gleichen Fehler machen, wird er dadurch zwar nicht korrekt, aber für eine corpusbasierte KI wird er so salonfähig. Rechtsextreme Messanger wird CTRL zwar kaum als bevorzugte Quelle benutzen, doch es geht nicht nur darum, gefährlichen Nonsens zu vermeiden. Vielmehr wollen wir spannende neue Geschichten. Wir wollen im CTRL-Projekt Kreativität und neue Ideen. Geht das mit einer Zweitverwertung?

c) Fehlende innere Logik
Die gewünschte Kreativität kann zwar durch Zufall simuliert werden. Wenn zwei für uns unzusammenhängende Informationen in einen direkten Zusammenhang gesetzt werden, sind wir erst einmal überrascht. Wir horchen auf und hören die Geschichte weiter. Aber macht das Zusammengebrachte auch Sinn? Folgt es einer inneren Logik? – Wenn es rein zufällig ist, tut es das nicht, dann fehlt die innere Logik.

Zufall ist nicht Kreativität. Erst wenn ein logischer Zusammenhang zwischen den Zufällen gefunden wird, entsteht eine funktionierende Geschichte. Diese innere Logik fehlt einem corpusbasierten Programm prinzipiell.

Fazit 

Daniel Kehlmann hat seine Erfahrungen präzis und gut nachvollziehbar beschrieben. Er erlebte das Experiment als faszinierend und war oft positiv von den Inputs von CTRL überrascht. Trotzdem stellt er fest, dass CTRL entscheidende Schwächen hat und verweist insbesondere auf den fehlenden narrativen Plan, welcher eine Geschichte zusammenhält.

Für jeden, der sich mit künstlicher Intelligenz vorurteilsfrei beschäftigt hat, ist die Erfahrung Kehlmanns eine lebhafte Bestätigung der eigenen Erfahrungen. Ich habe mich beruflich intensiv mit Computerlinguistik beschäftigt, d.h. mit der Frage, wie Computer natürliche Sätze intelligent interpretieren können. Dabei wird klar: Verständnis von Texten baut auf einem inneren Bezugssystem auf. Über dieses Bezugssystem verfügt jeder menschliche Schriftsteller – aber das KI-System nicht. Das korpusbasierte KI-System kennt nur die Wahrscheinlichkeiten von Signalen (Wörtern), ohne ihre wirkliche Bedeutung zu erfassen. Das ist das Problem.

Dem KI-System fehlt insbesondere Absicht und Bewusstsein. Die Absicht kann zwar durch die Betreiber von aussen vorgegeben werden – z.B. bestimmte Zellen in einem medizinischen Blutausstrich zu erkennen oder möglichst viel Traffic auf einer Suchmaschine zu erzielen – doch ein wirkliches Bewusstsein eines Programms würde ein Nachdenken über die eigene Absicht beinhalten. Eine corpusbasierte Intelligenz aber denkt überhaupt nicht nach – schon gar nicht über die eigene Absicht – sondern rechnet nur aus, was in seinem Datenpool das Wahrscheinlichste ist.

Das Experiment von Daniel Kehlmann ist deshalb lehrreich, weil es konkret, genau und verständlich Programmierern und Nicht-Programmierern die Grenzen der künstlichen Intelligenz aufzeigt.

Kurzfassung des Fazits

KI ist faszinierend und in vielen Anwendungen ausserordentlich nützlich, aber eines ist künstliche Intelligenz mit Sicherheit nicht: auf kreative Weise wirklich intelligent.

Mehr zu Daniel Kehlmanns und CTRL

Künstliche und natürliche Intelligenz: Der Unterschied

Was ist wirkliche Intelligenz? 

Paradoxerweise hilft uns der Erfolg der künstlichen Intelligenz, essenzielle Bedingungen für die echte Intelligenz zu erkennen. Wenn wir nämlich akzeptieren, dass die künstliche Intelligenz an Grenzen stösst und im Vergleich zur echten klar erkennbare Mängel aufweist – und genau das haben wir ja in den Vorbeiträgen erkannt und beschrieben –, dann zeigen uns die Beschreibungen nicht nur, was bei der künstlichen Intelligenz fehlt, sondern auch, was die echte Intelligenz der künstlichen voraus hat. Wir lernen also etwas ganz Entscheidendes zum Thema natürliche Intelligenz.

Was haben wir erkannt? Was sind die essentiellen Unterschiede? Meines Erachtens sind es zwei Eigenschaften, durch die sich echte Intelligenz gegenüber künstlicher auszeichnet:

Die echte Intelligenz
– funktioniert auch in offenen Systemen,
– zeichnet sich durch eine bewusste Absicht aus.

Schach und Go sind geschlossene Systeme

Im Beitrag ‹Jassen und Schach› haben wir das Paradox untersucht, dass das Jass-Spiel für uns Menschen weniger Intelligenz zu erfordern scheint als Schach, für künstliche Intelligenz ist es aber genau umgekehrt. Im Schach und GO schlägt uns der Computer, beim Jassen hingegen haben wir durchaus eine Chance.

Weshalb ist das so? – Der Grund liegt in der Geschlossenheit des Schachspiels. Die Geschlossenheit bedeutet, dass nichts geschieht, was nicht vorgesehen ist. Alle Spielregeln sind klar definiert. Die Zahl der Felder und der Figuren, die Anfangspositionen und Spielmöglichkeiten der Figuren, wer wann zieht und wer wann warum gewonnen hat; all dies ist eindeutig festgesetzt. Und alle Regeln sind explizit; was nicht definiert ist, spielt keine Rolle: Wie der König ausschaut? Egal, wichtig ist nur, dass es einen König gibt und dass er für den Sieg matt zu setzen ist, im Notfall reicht, um den König zu symbolisieren, ein Papierfetzchen mit einem ‹K› darauf.

Solche geschlossenen Systeme können mathematisch klar beschrieben werden, und sie sind deterministisch. Natürlich braucht es Intelligenz, um zu siegen, doch diese Intelligenz kann völlig mechanisch sein, eben eine künstliche Intelligenz.

Mustererkennung: Offenes oder geschlossenes System?

Anders sieht es beim Typus Mustererkennung aus, wenn z.B. auf Bildern bestimmte Gegenstände und ihre Eigenschaften erkannt werden müssen. Hier ist das System im Prinzip offen, denn es können nicht nur Bilder mit ganz neuen Eigenschaften von aussen eingebracht werden, sondern auch die entscheidenden Eigenschaften, die erkannt werden müssen, können variieren. Die Situation ist also nicht so einfach, klar definiert und geschlossen wie bei Schach und GO. Ist das nun ein geschlossenes System?

Nein, ist es nicht. Während bei Schach die Spielregeln einen abschliessenden Grenzzaun um die Möglichkeiten und Ziele legen, muss ein solcher Sicherheitszaun aktiv um die Mustererkennung gelegt werden. Der Zweck ist, dabei die Vielfalt der Muster in einer klaren Verteilung zu organisieren. Das können nur Menschen. Sie bewerten den Lernkorpus, der möglichst viele Musterbeispiele erfasst, und jedes Beispiel wird von den Experten entsprechend der gewünschten Unterscheidung zugeordnet. Dieser bewertete Lernkorpus nimmt dann die Rolle der Spielregeln des Schachs ein und er bestimmt, wie ein neuer Input bewertet wird. Mit anderen Worten: Der bewertete Lernkorpus enthält das relevante Wissen, d.h. die Regeln, nach denen ein bisher unbekannter Input bewertet wird. Er entspricht dem Regelwerk des Schachs.

Das KI-System für eine Mustererkennung ist in diesem Sinn offen, wenn der Lernkorpus noch nicht einbezogen ist, mit dem bewerteten Korpus jedoch wird ein solches System ein geschlossenes. Genauso wie das Schachprogramm durch die Spielregeln klare Grenzen hat, bekommt auch die Mustererkennung ein klares Korsett, das letztlich das Outcome deterministisch definiert. Sobald die Bewertung erfolgt ist, kann eine rein mechanische Intelligenz das Verhalten innerhalb der getroffenen Grenzen optimieren – und dies letztlich in einem Perfektionsgrad, der mir als Mensch nie möglich sein wird.

Wer aber bestimmt den Inhalt des Lernkorpus, der das Mustererkennungsprogramm zu einem (technisch) geschlossenen System macht? Es sind immer menschliche Experten, die die Musterinputs bewerten. Der Mensch also macht die im Prinzip offene Aufgabe der Mustererkennung mittels des von ihm bewerteten Korpus zu einer geschlossenen Aufgabe, die ein mechanischer Algorithmus lösen kann.

In beiden Fällen – dem primär geschlossenen Spielprogramm (Schach und Go), wie auch dem sekundär geschlossenen Mustererkennungsprogramm – findet der Algorithmus eine geschlossene Situation vor; und das ist die Voraussetzung dafür, dass eine künstliche, d.h. mechanische Intelligenz überhaupt funktionieren kann.

Fazit 1:
Die KI-Algorithmen können nur in geschlossenen Räumen arbeiten.

Bei der Mustererkennung liefert der von Menschen geschaffene Lernkorpus diesen geschlossenen Raum.

Fazit 2:
Echte Intelligenz funktioniert auch in offenen Situationen.


Gibt es Intelligenz ohne Absicht?

Warum kann die künstliche Intelligenz im offenen Raum ohne Bewertungen von aussen nicht funktionieren? Weil die Bewertungen von aussen erst die Resultate der künstlichen Intelligenz ermöglichen. Und die Bewertungen können nicht mechanisch (algorithmisch) von der KI gegeben werden, sondern haben stets mit den An- und Absichten der Bewerter zu tun.

Neben der Unterscheidung zwischen offenen und geschlossenen Systemen, kann uns die Analyse von KI-Systemen somit noch mehr über die wirkliche Intelligenz zeigen. Künstliche und natürliche Intelligenz unterscheiden sich nämlich auch darin, wie weit bei ihnen für ihre Entscheidungen die jeweilige Absicht eine Rolle spielt.

Bei Schachprogrammen ist das Ziel klar, der gegnerische König soll schachmatt gesetzt werden. Das Ziel, das die Bewertung der Züge bestimmt, nämlich die Absicht zu siegen, muss nicht vom Programm selber mühsam erkannt werden, sondern ist von vornherein gegeben.

Auch bei der Mustererkennung ist die Rolle der Bewertungsabsicht entscheidend, denn welche Arten von Mustern sollen überhaupt unterschieden werden? Fremde Panzer versus eigene Panzer? Radpanzer versus Kettenpanzer? Funktionsfähige versus defekte? Alle diese Unterscheidungen machen Sinn, die KI muss aber anhand des Korpus auf ein bestimmtes Ziel, auf eine bestimmte Absicht eingestellt und justiert werden. Ist der Korpus einmal in einer bestimmten Richtung bewertet, kann nicht plötzlich ein anderes Merkmal daraus abgeleitet werden.

Wie beim Schachprogramm ist die künstliche Intelligenz nicht imstande, das Ziel selbständig herauszufinden, beim Schachprogramm versteht sich das Ziel (Schachmatt) von selber, bei der Mustererkennung müssen sich die beteiligten Bewerter über das Ziel (fremde/eigene, Rad-/Kettenpanzer) vorgängig einig sein. In beiden Fällen kommen Ziel und Absicht von aussen.

Natürliche Intelligenz hingegen kann sich selber darüber klar werden, was wichtig und was unwichtig ist und welche Ziele sie verfolgt. Die aktive Absicht ist m.E. eine unverzichtbare Eigenschaft der natürlichen Intelligenz und kann nicht künstlich konstruiert werden.

Fazit 3:
Im Gegensatz zur künstlichen zeichnet sich die natürliche Intelligenz dadurch aus, dass sie die eigenen Absichten beurteilen und bewusst ausrichten kann.


Dies ist ein Beitrag zum Thema künstliche Intelligenz. Weitere Beiträge finden Sie über die Übersichtsseite zum Thema KI.

Wo in der künstlichen Intelligenz steckt nun die Intelligenz?

Ganz kurz: Die Intelligenz steckt immer ausserhalb.

a) Regelbasierte Systeme

Die Regeln und Algorithmen dieser Systeme – Typ A1 und A2 – werden von Menschen erstellt und niemand wird einem Taschenrechner wirkliche Intelligenz zubilligen. Das Gleiche gilt auch für alle anderen, noch so raffinierten regelbasierten Systeme. Die Regeln werden von Menschen gebaut.

b) Konventionelle korpusbasierte Systeme (Mustererkennung)

Diese Systeme (Typ B1) verwenden immer einen bewerteten Korpus, also eine Datensammlung, die bereits bewertet worden ist  (Details). Die Bewertung entscheidet, nach welchen Zielen jeder einzelne Korpuseintrag klassifiziert wird und die Klassifizierung stellt dann das wirkliche Wissen im Korpus dar.

Die Klassierung ist aber nicht aus den Daten des Korpus selber ableitbar, sondern erfolgt immer von ausserhalb. Und nicht nur die Zuweisung eines Dateneintrags zu einer Klasse ist nur von aussen durchführbar, auch die Klassen selber sind nicht durch die Daten des Korpus determiniert, sondern werden von aussen – letztlich von Menschen – vorgegeben.

Die Intelligenz bei diesen Systemen steckt immer in der Bewertung des Datenpools, d.h. der Zuteilung der Datenobjekte zu vorgegebenen Klassen, und diese erfolgt von aussen durch Menschen. Das neuronale Netz, das dabei entsteht, weiss nicht, wie das menschliche Hirn die dafür nötigen Bewertungen gefunden hat.

c) Suchmaschinen

Diese (Typ B2) stellen einen Sonderfall der korpusbasierten Systeme dar und basieren auf der Tatsache, dass viele Menschen eine bestimmte Suchmaschinen benützen und mit ihren Klicks entscheiden, welche Internetlinks den Suchbegriffen zugeordnet werden können. Die Suchmaschinen mitteln am Ende nur, welche Spuren die vielen Benutzer mit ihrem eigenen Kontextwissen und ihren jeweiligen Absichten gelegt haben. Ohne die menschlichen Gehirne der bisherigen Suchmaschinenbenutzer wüssten die Suchmaschinen nicht, wohin sie zeigen sollten.

d) Spielprogramme (Schach, Go, usw.) / Deep Learning

Hier wird es interessant, denn diese Programme (Typ B3) brauchen im Gegensatz zu den anderen korpusbasierten Systemen keinen Menschen, der von aussen den Korpus (bestehend aus den Zügen bereits gespielter Partien) beurteilt. Verfügen diese Systeme also über eine eigenständige Intelligenz?

Wie die Programme zur Mustererkennung (b) und die Suchmaschinen (c) verfügt das Go-Programm über einen Korpus, der in diesem Fall die Züge der gespielten Testpartien enthält. Der Unterschied zu klassischen KI-Systemen besteht nun darin, dass die Bewertung des Korpus (d.h. der Spielzüge) bereits durch den Spielerfolg in der betreffenden Partie definiert ist. Es braucht also keinen Menschen, der fremde von eigenen Panzern unterscheiden muss und dadurch die Vorlage für das neuronale Netz liefert. Der Spielerfolg kann von der Maschine, d.h. dem Algorithmus, selber direkt erkannt werden, ein Mensch ist dafür nicht nötig.

Bei klassischen KI-Systemen ist dies nicht der Fall, und es braucht unbedingt einen Menschen, der die einzelnen Korpuseinträge bewertet. Dazu kommt, dass das Kriterium der Bewertung nicht wie bei Go eindeutig gegeben ist. Panzerbilder können z.B. ganz unterschiedlich kategorisiert werden (Radpanzer/Kettenpanzer, beschädigte/unbeschädigte Panzer, Panzer in Städten/Feldern, auf Farbbildern/Schwarzweiss-Bildern etc.). Dies öffnet die Interpretationsmöglichkeiten für die Bewertung beliebig. Eine automatische Zuweisung ist aus all diesen Gründen bei klassischen KI-System nicht möglich, und es braucht immer die Bewertung des Lernkorpus durch menschliche Experten.

Bei Schach und Go ist dies gerade nicht nötig. Denn Schach und Go sind künstlich konstruierte und völlig geschlossene Systeme und deshalb in der Tat von vornherein vollständig determiniert. Das Spielfeld, die Spielregeln und das Spielziel – und damit auch die Bewertung der einzelnen Züge – sind automatisch gegeben. Deshalb braucht es keine zusätzliche Intelligenz, sondern ein Automatismus kann innerhalb des vorgegebenen, geschlossenen Settings Testpartien mit sich selber spielen und das vorgegebene Ziel so immer besser erreichen, bis er besser ist als jeder Mensch.

Bei Aufgaben, die sich nicht in einem künstlichen Spielraum, sondern in der Realität stellen, sind die erlaubten Züge und die Ziele aber nicht vollständig definiert und der Strategie-Raum bleibt offen. Eine Automatik wie Deep Learning ist in offenen, d.h. realen Situationen nicht anwendbar.

In der Praxis braucht es selbstverständlich eine beträchtliche Intelligenz, um den Sieg in Go und anderen Spielen zu programmieren und wir dürfen die Intelligenz der Ingenieuren von Google durchaus dafür bewundern, doch ist es eben wieder ihre menschliche Intelligenz, die sie die Programme entwickeln lässt, und nicht eine Intelligenz, die die von ihnen konstruierten Programme selbständig entwickeln könnten.

Fazit

KI-Systeme können sehr eindrücklich und sehr nützlich sein, sie verfügen aber nie über eigene Intelligenz.


Dies ist ein Beitrag zum Thema künstliche Intelligenz.

Menupunkt: Künstliche Intelligenz


Ist KI gefährlich oder nützlich?

Diese Frage wird aktuell ausgiebig diskutiert. Es soll hier nicht darum gehen, wohlbekannte Meinungen zu wiederholen, sondern darum, Grundlagen der Technologie zu nennen, die Ihnen bisher ziemlich sicher unbekannt sind. Oder wissen Sie, woher die KI ihre Intelligenz hat?

Ich arbeite seit einem Vierteljahrhundert mit «intelligenten» Informatiksystemen und wundere mich vor allem darüber, dass wir der künstliche Intelligenz überhaupt eine eigenständige Intelligenz zubilligen. Genau die hat sie nämlich nicht. Ihre Intelligenz kommt stets von Menschen, welche die Daten nicht nur liefern, sondern sie auch bewerten müssen, bevor die KI sie verwenden kann. Trotzdem überrascht die KI mit einer immensen Leistungsfähigkeit und sinnvollen Anwendungen in den unterschiedlichsten Gebieten. Wie macht sie das?

2019 habe ich hier eine Blogserie zum Thema begonnen, zu der Sie unten eine Übersicht sehen. 2021 habe ich dann die Beiträge in einem Buch zusammengefasst, mit dem Titel Wie die künstliche Intelligenz zur Intelligenz kommt›


Hier folgen die Blogbeiträge:

Regelbasiert oder korpusbasiert?

Die Computerintelligenz verfügt über zwei grundlegend verschiedene Methoden: Sie kann entweder auf Regeln oder auf einer Datensammlung (=Korpus) beruhen. Im Einstiegsbeitrag stelle ich sie mit zwei charakteristischen Anekdoten vor:


Bezüglich Erfolg haben die korpusbasierten Systeme die regelbasierten offensichtlich überflügelt:


Die regelbasierten Systeme hatten es schwieriger. Was sind ihre Herausforderungen? Wie können sie ihre Schwächen überwinden? Und wo steckt bei ihnen die Intelligenz?


Zurück zu den korpusbasierten Systemen. Wie sind sie aufgebaut? Wie wird ihr Korpus zusammengestellt und bewertet? Was hat es mit dem neuronalen Netz auf sich? Und was sind die natürlichen Grenzen der korpusbasierten Systeme?


Als nächstes beschäftigen wir uns mit Suchmaschinen, die ebenfalls korpusbasierte Systeme sind. Wie gelangen sie zu ihren Vorschlägen? Wo sind ihre Grenzen und Gefahren? Weshalb entstehen z.B. zwingend Blasen?


Kann ein Programm lernen, ohne dass ein Mensch ihm gute Ratschläge zuflüstert? Mit Deep Learning scheint das zu klappen. Um zu verstehen, was dabei passiert, vergleichen wir zuerst ein einfaches Kartenspiel mit Schach: Was braucht mehr Intelligenz? Überraschend wird klar, dass für den Computer Schach das einfachere Spiel ist.

An den Rahmenbedingungen von Go und Schach erkennen wir, unter welchen Voraussetzungen Deep Learning funktioniert.


Im anschliessenden Beitrag gebe ich einen systematischen Überblick über die mir bekannten KI-Arten, skizziere kurz ihren jeweiligen Aufbau und die Unterschiede in ihrer Funktionsweise.

Wo steckt nun die Intelligenz?


Die angestellten Überlegungen lassen erkennen, was die natürliche Intelligenz gegenüber der künstlichen auszeichnet:


Ihre Leistungsfähigkeit zeigt die KI nur, wenn die Aufgabenstellung klar und einfach ist. Sobald die Fragestellung komplex wird, versagen sie. Oder sie flunkern, indem sie schöne Sätze, die sich in ihrem Datenschatz finden, so anordnen, dass es intelligent klingt (ChatGPT, LaMDA). Sie arbeiten nicht mit Logik, sondern mit Statistik, also mit Wahrscheinlichkeit. Aber ist das Wahr-Scheinliche auch immer das Wahre?

Die Schwächen folgen zwingend aus dem Konstruktionsprinzip der KI. Damit befassen sich weitere Beiträge:


 

Übersicht über die KI-Systeme

Alle bis jetzt untersuchten Systeme, inkl. Deep Learning, lassen sich in ihrem Kern auf zwei Methoden zurückführen, die regel- und die korpusbasierte. Dies gilt auch für die bisher nicht besprochenen Systeme, nämlich den einfachen Automaten und die hybriden Systeme. Letztere kombinieren die beiden Herangehensweisen.

Wenn wir diese Varianten integrieren, gelangen wir zur folgenden Übersicht:

A: Regelbasierte Systeme

Regelbasierte Systeme basieren auf Rechenregeln. Bei diesen Regeln handelt es sich immer um ‹IF-THEN› Befehle, also um Anweisungen, die einem bestimmten Input ein bestimmtes Ergebnis zuweisen. Diese Systeme sind immer deterministisch, d.h. ein bestimmter Input führt immer zum gleichen Resultat. Ebenfalls sind diese Systeme immer explizit, d.h. es gibt keine Vorgänge, die nicht sichtbar gemacht werden können und das System ist – mindestens im Prinzip – immer vollständig durchschaubar. Regelbasierte Systeme können allerdings recht komplex werden.

A1: Einfacher Automat (Typ Taschenrechner)
Einfacher Automat
Abb. 1: Einfacher Automat

Regeln werden auch als Algorithmen («Algo» in Abb. 1) bezeichnet. Selbstverständlich können mit einfachen Automaten auch sehr komplexe Berechnungen durchgeführt werden und Input und Output (Resultat) müssen nicht Zahlen sein. Der einfache Automat zeichnet sich vor den anderen Systemen dadurch aus, dass er keine spezielle Wissensbasis und keinen Korpus braucht, sondern mit wenigen Rechenregeln auskommt.

Vielleicht würden Sie den Taschenrechner nicht als KI-System bezeichnen, doch die Unterschiede zu den höher entwickelten Systemen bis hin zum Deep Learning sind nur gradueller Natur – bzw. von genau der Art, wie sie hier auf dieser Seite beschrieben werden. Komplexe Rechenleistungen erscheinen uns schnell einmal als intelligent, besonders dann, wenn wir sie mit unseren menschlichen Gehirnen nicht so einfach nachvollziehen können. Das gilt bereits für einfache Rechenoperationen wie Divisionen und Wurzelziehen, bei denen wir schnell an unsere Grenzen stossen. Gesichtserkennung erscheint uns hingegen vergleichsweise einfach, weil wir das meist auch ohne Computer ganz gut können. Übrigens gehört Mühlespielen auch in die Kategorie A1, es braucht zwar eine gewisse Intelligenz, um es zu spielen, aber es ist vollständig und einfach mit einem KI-Programm vom Typ A1 beherrschbar.

A2: Wissensbasiertes System
Erstellen Wissensbasis
Abb. 2: Erstellen einer Wissensbasis

Diese Systeme unterscheiden sich von einfachen Automaten dadurch, dass ein Teil ihrer Regeln in einer Wissensbasis ausgelagert ist. Abb. 2 weist darauf hin, dass diese Wissensbasis von einem Menschen aufgebaut wird; Abb. 3 zeigt, wie sie angewendet wird. Die Intelligenz steckt in den Regeln, sie kommt vom Menschen – bei der Anwendung reicht dann die Wissensbasis allein.

Anwenden eines wissensbasierten Systems
Abb. 3: Anwenden eines wissensbasierten Systems

Die Inferenzmaschine («IM» in Abb. 2 und 3) entspricht den Algorithmen der einfachen Automaten in Abb. 1. Im Prinzip handelt es sich bei den Algorithmen, der Inferenzmaschine und den Regeln der Wissensbasen immer um Regeln, also um explizite ‹IF-THEN›- Anweisungen. Diese können allerdings unterschiedlich komplex verwoben und verschachtelt sein. Sie können sich auf Zahlen oder auf Begriffe beziehen.

Die Regeln in der Wissensbasis sind nun den Regeln der Inferenzmaschine untergeordnet. Letztere kontrollieren den Fluss der Interpretation, d.h. sie entscheiden, welche Regeln der Wissensbasis anzuwenden und wie sie auszuführen sind. Die Regeln der Inferenzmaschine sind das eigentliche Programm, das vom Computer gelesen und ausgeführt wird. Die Regeln der Wissensbasis hingegen werden vom Computer nicht direkt, sondern indirekt über die Anweisungen der Inferenzmaschine ausgeführt. Es handelt sich also um eine Verschachtelung – wie sie im Übrigen typisch für die Befehle (Software) in einem Computer sind. Auch die Regeln der Inferenzmaschine werden ja nicht direkt ausgeführt, sondern von tieferen Regeln gelesen, bis hinunter zur Maschinensprache im Kern (Kernel) des Rechners. Im Prinzip sind aber die Regeln der Wissensbasis genauso Rechenregeln wie die Regeln der Inferenzmaschine, nur eben in einer ‹höheren› Programmiersprache. Diese zeichnet sich vorteilhafterweise dadurch aus, dass sie für die Domain-Experten, d.h. für die menschlichen Fachexperten, besonders einfach und sicher les- und handhabbar ist.

Bezüglich des in der Inferenzmaschine verwendeten Logiksystems unterscheiden wir regelbasierte Systeme

– mit statischer Logik (Typ Ontologien / Semantic Web),
– mit dynamischer Logik (Typ Begriffsmoleküle).

Siehe dazu den Beitrag ‹Die drei Neuerung der regelbasierte KI›.

B: Korpusbasierte Systeme

Korpusbasierte Systeme werden in drei Schritten erstellt (Abb. 4). Im ersten Schritt wird ein möglichst grosser Korpus gesammelt. Die Sammlung enthält keine Regeln, sondern Daten. Regeln wären Anweisungen, die Daten des Korpus hingegen sind keine Anweisungen; es handelt sich um reine Datensammlungen, Texte, Bilder, Spielverläufe, etc.

Erstellen eines korpusbasierten Systems
Abb. 4: Erstellen eines korpusbasierten Systems

Diese Daten müssen nun – im zweiten Schritt – bewertet werden. In der Regel macht das ein Mensch.

Im dritten Schritt wird ein sogenanntes neuronales Netz auf Basis des bewerteten Korpus trainiert. Das neuronale Netz ist im Gegensatz zum Datenkorpus wieder eine Regelsammlung, wie es die Wissensbasis der regelbasierten Systeme (Typ A) ist. Im Unterschied zu diesen wird das neuronale Netz aber nicht von einem Menschen trainiert, sondern vom bewerteten Korpus. Das neuronale Netz ist – im Gegensatz zur Wissensbasis – nicht explizit, d.h. nicht so ohne Weiteres einsehbar.

Anwenden eines korpusbasierten Systems
Abb. 5: Anwenden eines korpusbasierten Systems

Bei der Anwendung kommt das neuronale Netz wie das regelbasierte nun ganz ohne Menschen aus. Es braucht nicht einmal mehr den Korpus. Alles Wissen steckt in den Algorithmen des neuronalen Netzes. Zudem ist das neuronale Netz durchaus in der Lage, auch schlecht strukturierten Inhalt, z.B. Pixelhaufen (Bilder) zu interpretieren, bei denen regelbasierte Systeme (Typ B) ganz schnell an ihre Grenzen stossen. Im Gegensatz zu diesen sind die korpusbasierten Systeme aber weniger erfolgreich, was komplexen Output betrifft, d.h. die Zahl der möglichen Output-Resultate darf nicht zu gross sein, da sonst die Trefferschärfe des Systems leidet. Am besten geeignet sind binäre Outputs vom Typ ‹eigener/fremder Panzer› (siehe Vorbeitrag) oder ‹männlicher/weiblicher Autor› bei der Bewertung von Twitter-Texten.

Drei Untertypen der korpusbasierten KI

Die drei Untertypen unterscheiden sich dadurch, wer die Bewertung des Korpus durchführt.

Die drei Typen der korpusbasierten Systeme

Abb. 6: Die drei Typen der korpusbasierten Systeme

B1: Typ Mustererkennung

Diesen Typ (oberes System in Abb. 6) habe ich im «Panzerbeispiel» beschrieben. Die Bewertung des Korpus erfolgt dabei durch einen menschlichen Experten.

B2: Typ Suchmaschine

Siehe mittleres Schema in Abb. 6. Bei diesem Typ erfolgt die Bewertung des Korpus durch die Kunden. Ein solches System ist im Beitrag Suchmaschine beschrieben.

B3: Typ Deep Learning

Bei diesem Typ (unterstes System in Abb. 6) ist im Gegensatz zu den oberen kein Mensch nötig, um das neuronale Netz zu bewerten. Die Bewertung ergibt sich allein durch den Spielverlauf. Dass Deep Learning aber nur unter sehr restriktiven Bedingungen möglich ist, wird im Beitrag Spiele und Intelligenz erläutert.

C: Hybride Systeme

Selbstverständlich können die oben genannten Methoden (A1 und A2, B1 bis B3) in der Praxis auch verbunden werden.

So kann z.B. ein System zur Gesichtsidentifikation so funktionieren, dass ein korpusbasiertes System des Typs B1 in den Bildern einer Überwachungskamera Gesichter als solche erkennt und in den Gesichtern die entscheidenden Formen von Augen, Mund usw. Anschliessend errechnet ein regelbasiertes System des Typs A2 aus den von System  B1 markierten Punkten die Grössenverhältnisse von Augen, Nasen, Mund etc., die ein individuelles Gesicht auszeichnen. Durch eine solche Kombination von korpus- und regelbasiertem System können auf den Bildern individuelle Gesichter erkannt werden. Der erste Schritt wäre für ein System A2 nicht möglich, der zweite Schritt für ein System B1 viel zu kompliziert und ungenau. Ein Hybrid macht es möglich.


Im Folgebeitrag beantworte ich die Frage, wo in all diesen Systemen nun die Intelligenz steckt. Aber vermutlich haben Sie die Antwort längst selbst erkannt.


Dies ist ein Beitrag zum Thema künstliche Intelligenz.

Spiele und Intelligenz (2): Deep Learning

Go und Schach

Das asiatische Go-Spiel hat viele Ähnlichkeiten mit Schach und ist dabei gleichzeitig einfacher und raffinierter. Das heisst:

Gleich wie Schach:
– Brettspiel → klar definiertes Spielfeld
– Zwei Spieler (mehr würde die Komplexität sofort erhöhen)
– Eindeutig definierte Spielmöglichkeiten der Figuren (klare Regeln)
– Die Spieler ziehen abwechselnd (klare Zeitschiene)
– Keine versteckten Informationen (wie etwa beim Jassen)
Klares Ziel (Wer am Schluss das grössere Gebiet besetzt, gewinnt)

Bei Go einfacher:
– Nur ein Typus Spielfigur/Steine (Bei Schach: König, Dame, etc.)

Bei Go komplexer/aufwendiger:
– Go hat das leicht grössere Spielfeld.
– Die grössere Anzahl Felder und Steine führt zu etwas mehr Rechenaufwand.
– Trotz sehr einfachen Grundelementen hat Go eine ausgesprochen raffinierte Spielanlage.

Zusammenfassung

Die Unterschiede zwischen Go und Schach sind verglichen mit den Gemeinsamkeiten minimal. Insbesondere sind auch für Go die stark einschränkenden Vorbedingungen a) bis d)  erfüllt, die es einem Algorithmus erlauben, die Aufgabe in Angriff zu nehmen:

a) klar definiertes Spielfeld
b) klar definierte Spielregeln
c) klar definierter Spielablauf
d) klares Spielziel

(siehe auch Vorbeitrag)

Go und Deep Learning

Google hat die besten menschlichen Go-Spieler besiegt. Der Sieg wurde durch einen Typus KI erreicht, der als Deep Learning bezeichnet wird. Manche Leute denken, dass damit sei bewiesen, dass ein Computer – d.h. eine Maschine – wirklich intelligent sein könne. Schauen wir deshalb genauer, wie Google das angestellt hat.

Regel- oder korpusbasiert – oder ein neues, drittes System?

Die Strategien der bekannten KI-Programme sind entweder regel- oder korpusbasiert. In den Vorbeiträgen haben wir uns gefragt, wo die Intelligenz bei diesen beiden Strategien herkommt und wir haben gesehen, dass die Intelligenz bei der regelbasierten KI von menschlichen Experten in das System hinein gegeben wird, indem sie die Regeln bauen. Bei der korpusbasierten KI sind ebenfalls Menschen nötig, denn alle Einträge in den Korpus müssen eine Bewertung (z.B. eigener/fremder Panzer) bekommen, und diese Bewertung lässt sich immer auf Menschen zurückführen, auch wenn das nicht immer sofort ersichtlich ist.

Wie aber sieht das nun bei Deep Learning aus? Offensichtlich sind hier keine Menschen mehr nötig, um konkrete Bewertungen – bei Go bezüglich der Siegeschancen der Spielzüge – abzugeben, sondern es reicht, dass das Programm gegen sich selber spielt und dabei selbstständig herausfindet, welche Züge die erfolgreichsten waren. Dabei ist Deep Learning NICHT auf menschliche Intelligenz angewiesen und erweist sich – bei Schach und Go – sogar der menschlichen Intelligenz überlegen. Wie funktioniert das?

Deep Learning ist korpusbasiert

Zweifellos haben die Ingenieure von Google einen phantastischen Job gemacht. Während bei konventionellen korpusbasierten Anwendungen die Daten des Korpus mühsam zusammengesucht werden müssen, ist das beim Go-Programm ganz einfach: Die Ingenieure lassen den Computer einfach gegen sich selber spielen und jedes Spiel ist ein Eintrag im Korpus. Es müssen nicht mehr mühsam Daten im Internet oder anderswo gesucht werden, sondern der Computer kann den Korpus sehr einfach und schnell in beliebiger Grösse selber generieren. Das Deep Learning für Go bleibt zwar wie die Programme zu Mustererkennung weiterhin auf einen Korpus angewiesen, doch dieser lässt sich sehr viel einfacher – und vor allem automatisch – zusammenstellen.

Doch es kommt für das Deep Learning noch besser: Neben der einfacheren Erstellung des Korpus gibt es einen weiteren Vorteil: Es braucht überhaupt keine menschlichen Experten mehr, um unter den vielen zu einem bestimmten Zeitpunkt möglichen Spielzügen den besten herauszufinden. Wie funktioniert das? Wie kann Deep Learning ganz ohne menschliche Intelligenz intelligente Schlüsse ziehen? Das ist schon erstaunlich. Bei näherem Hinsehen wird aber klar, weshalb das in der Tat so ist.

Die Bewertung der Korpuseinträge

Der Unterschied liegt in der Bewertung der Korpuseinträge. Sehen wir dazu noch einmal unser Panzerbeispiel an. Sein Korpus besteht aus Bildern von Panzern, und ein menschlicher Experte muss jedes Bild danach beurteilen, ob es einen eigenen oder fremden Panzer darstellt. Dazu braucht es – wie dargestellt – menschliche Experten. Auch bei unserem zweiten Beispiel, der Suchmaschine, beurteilen menschliche Anwender, nämlich die Kunden, ob der im Korpus vorgeschlagene Link auf eine Website zum eingegebenen Suchausdruck passt. Beide Arten von KI kommen nicht ohne menschliche Intelligenz aus.

Bei Deep Learning ist das jedoch wirklich anders. Hier braucht es keine zusätzliche Intelligenz, um den Korpus, d.h. die einzelnen Züge der vielen Spielverläufe, die bei den Go-Testspielen entstehen, zu bewerten. Die Bewertung ergibt sich automatisch aus dem Spiel selber, denn es kommt nur darauf an, ob das Spiel gewonnen wird oder nicht. Das weiss der Korpus aber selber, da er ja den ganzen Spielverlauf bis zum Schluss hin registriert hat. Jeder Spielverlauf im Korpus hat somit seine Bewertung automatisch mit dabei – eine Bewertung durch Menschen erübrigt sich.

Natürliche Grenzen des Deep Learning

Durch das oben Gesagte lassen sich aber auch die Bedingungen erkennen, unter denen Deep Learning überhaupt möglich ist: Damit Spielverlauf und Bewertung klar sind, dürfen keine Überraschungen auftreten. Mehrdeutige Situationen und unkontrollierbare Einflüsse von aussen sind verboten. Damit alles fehlerfrei kalkulierbar bleibt, braucht es zwingend:

1. Ein geschlossenes System

Dies ist durch die Eigenschaften a) bis c) (siehe Vorbeitrag) gegeben, die Spiele wie Schach und Go aufweisen, nämlich:

a) klar definiertes Spielfeld,
b) klar definierte Spielregeln,
c) klar definierter Spielablauf.

Ein geschlossenes System ist nötig, damit Deep Learning funktionieren kann. Ein solches kann nur ein konstruiertes sein, denn in der Natur gibt es keine geschlossenen Systeme. Es ist kein Zufall, dass Schach und Go sich für die KI besonders eignen, da Spiele immer diesen Aspekt des bewusst Konstruierten haben. Schon Spiele, die den Zufall mit integrieren, wie das Jassen im Vorbeitrag, sind keine absolut geschlossenen Systeme mehr und deshalb für eine künstliche Intelligenz weniger geeignet.

2. Ein klar definiertes Ziel

Auch das klar definierte Ziel – Punkt d) im Vorbeitrag – ist nötig, damit die Bewertung des Korpus ohne menschlichen Eingriff stattfinden kann. Das Ziel des untersuchten Vorgangs und die Bewertung der Korpuseinträge hängen nämlich eng zusammen. Wir müssen verstehen, dass das Ziel der Auswertung des Korpus nicht durch die Daten des Korpus gegeben ist. Daten und Auswertung sind zwei verschiedene Dinge, und die Auswertung der Daten hängt vom Ziel ab. Wir haben diesen Aspekt bereits im Beispiel mit den Panzern diskutiert.

Dort sahen wir, dass ein Korpuseintrag, d.h. die Pixel eines Panzerbilds, nicht automatisch seine Bewertung (fremd/eigen) enthält. Die Bewertung ist eine Information, die nicht in den einzelnen Daten (Pixeln) des Bildes enthalten ist, vielmehr muss sie von aussen (durch eine interpretierende Intelligenz) in den Korpus hinein gegeben  werden. Der gleiche Korpuseintrag kann deshalb sehr unterschiedlich bewertet werden:  Wenn dem Korpus mitgeteilt wird, ob es sich beim jeweiligen Bild um einen eigenen oder einen fremden Panzer handelt, ist damit noch nicht bekannt, ob es ein Raupen- oder ein Radpanzer ist. Die Bewertung kann bei allen solchen Bildern in ganz unterschiedliche Richtungen gehen. Beim Schachspiel und bei Go hingegen ist das anders. Dort wird ein Zug im Spielverlauf (der im Korpus bekannt ist) allein danach bewertet, ob er dem Spielsieg dienlich ist.

Bei Schach und Go gibt es somit ein einfaches, klar definiertes Ziel. Bei Panzerbildern hingegen sind im Gegensatz zu Schach und Go ganz unterschiedliche Beurteilungsziele möglich. Das ist typisch für reale Situationen. Reale Situationen sind immer offen und in ihnen sind unterschiedliche Beurteilungen je nach Situation absolut normal und sinnvoll. Eine Instanz (Intelligenz) ausserhalb der Daten muss zwecks Beurteilung der Daten den Bezug zwischen den Daten und dem Beurteilungsziel herstellen. Diese Aufgabe ist immer an eine Instanz mit einer bestimmten Absicht gebunden.

Der maschinellen Intelligenz fehlt jedoch diese Absicht und sie ist deshalb darauf angewiesen, dass ihr das Ziel von aussen vorgegeben wird. Wenn das Ziel nun so selbstevident ist wie bei Schach und Go, ist das kein Problem und die Bewertung des Korpus kann in der Tat ohne menschliche Intelligenz von der Maschine selbstständig durchgeführt werden. In solchen eindeutigen Situationen kann maschinelles Deep Learning wirklich funktionieren und die menschliche Intelligenz sogar schlagen.

Das trifft aber nur zu, wenn die Spielregeln und das Spielziel klar definiert sind. In allen anderen Fällen braucht es keinen Algorithmus, sondern eine ‹echte›, d.h. eine absichtsvolle Intelligenz.

Fazit

  1. Deep Learning (DL) funktioniert.
  2. DL verwendet ein korpusbasiertes System.
  3. DL kann die menschliche Intelligenz bei gewissen Aufgaben schlagen.
  4. DL funktioniert aber nur in einem geschlossenen System.
  5. DL funktioniert nur dann, wenn das Ziel klar und eindeutig ist.

Ad 4) Geschlossene Systeme sind nicht real, sondern entweder offensichtliche Konstrukte (wie Spiele) oder Idealisierungen von realen Verhältnissen (= Modelle). Solche Idealisierungen sind immer Vereinfachungen im Sinn der Interpretationstheorie und beinhalten eine Informationsreduktion. Sie können deshalb die Realität nicht vollständig abbilden.

Ad 5) Das Ziel, d.h. die ‹Absicht› entspricht einem subjektiven Moment. Dieses subjektive Moment unterscheidet die natürliche von der maschinellen Intelligenz. Der Maschine muss es vorgegeben werden.


Wie wir gesehen haben, lohnt es sich, verschiedene Formen von KI zu unterscheiden und ihre Funktionsweise genauer anzusehen. So werden die Stärken und Schwächen dieser neuen Technologien, die auch die heutige Welt entscheidend mitbestimmen, klarer sichtbar.

Im nächsten Beitrag bringen wir basierend auf den bisherigen Erkenntnissen eine Zusammenstellung der verschiedenen KI-Systeme.


Dies ist ein Beitrag zum Thema Künstliche Intelligenz.

Spiele und Intelligenz (1): Jassen und Schach

Schach oder Jassen, was erfordert mehr Intelligenz?

Jassen ist ein Schweizer Kartenspiel, verwandt mit Bridge, wenn auch etwas hemdsärmliger.

Allgemein wird angenommen, dass Schach mehr Intelligenz verlangt, denn offensichtlich haben weniger intelligente Spieler beim Jassen durchaus eine Chance, beim Schach hingegen nicht. Wenn wir uns überlegen, was ein Computerprogramm können muss, um zu siegen, sieht das Bild aber schnell anders aus: Schach ist für eine Maschine eindeutig einfacher.

Das überrascht Sie vielleicht, aber es lohnt sich, die Gemeinsamkeiten der beiden Spiele, aber auch die Unterschiede genauer anzusehen – und natürlich hat beides viel mit unserem Thema Künstliche Intelligenz zu tun.

Gemeinsamkeiten

a) Klares Spielfeld

Das Schachbrett hat 64 schwarze und weisse Felder. Nur die Figuren, die sich auf diesen Feldern befinden, spielen eine Rolle. Beim Jassen könnte man den sogenannten Jassteppich als Spielfeld bezeichnen. Dieser ist das materielle Spielfeld, so wie das materielle Schachbrett das Spielfeld fürs Schach ist. Wenn wir uns für das siegreiche Spielverhalten interessieren, spielen die Farbe des Jassteppichs und die materielle Beschaffenheit des Schachbretts jedoch keine Rolle, sondern es kommt nur auf das abstrakte, d.h. das ‹informatische› Spielfeld an: Wo können sich unsere Schachfiguren und Spielkarten bewegen? Und diesbezüglich ist die Situation auch beim Jassen völlig klar. Die Karten sind zu jedem Zeitpunkt an einem klar definierten Ort, entweder bei einem bestimmten Spieler bereit zum Ausspielen, bei einem bestimmten Spieler bereits eingesteckt als seine ‹Beute› oder auf dem Jassteppich als offene und für jeden sichtbare Karte. Sowohl beim Schach wie beim Jassen können wir von einem klar definierten Spielfeld ausgehen.

b) Klare Spielregeln

Auch hier gibt es zwischen den beiden Spielen kaum einen Unterschied. Zwar variieren in der Schweiz die Jassregeln von Dorf zu Dorf und von ‹Beiz› zu ‹Beiz› und ein diesbezüglicher Dissens kann zu heftigen Diskussionen führen, doch sobald man sich auf ein Set an Regeln geeinigt hat, ist die Situation klar. Wie beim Schach ist eindeutig, was geht und was nicht, und die möglichen Aktivitäten der Spieler sind eindeutig definiert.

c) Klarer Spielverlauf (Zeitverlauf)

Auch hier unterscheiden sich die beiden Spiele nicht. Zu jedem Zeitpunkt gibt es genau einen Akteur, der handeln darf und seine Handlungsmöglichkeiten sind klar definiert.

d) Klares Spielziel

Beim Schach geht es darum, den gegnerischen König matt zu setzen, ein ganz eindeutiges, klar definiertes Ziel. Beim Jassen entscheidet die Punkte- oder Stichzahl, je nach Variante. Jedes Spiel hat ein klar definiertes Ende. Beim Jassen wird nach neun Stichen gezählt, beim Schach verhindern Remis- und Patt-Regeln, dass ein Spiel nicht beendet werden kann. Es gibt immer einen klaren Sieger und klare Verlierer, notfalls ein definitives Unentschieden.

Unterschiede

e) Eindeutige Ausgangssituation?

Beim Schach ist die Ausgangslage bei jedem Spiel identisch, alle Figuren haben ihren angestammten Platz. Beim Jassen hingegen wird vor jedem Spiel gemischt. Während wir beim Schach somit immer die gleiche Ausgangslage vorfinden, müssen wir uns beim Jassen auf eine immer neue einstellen. Der Zufall spielt somit beim Jassen eine wichtige Rolle, beim Schach ist er hingegen  ganz bewusst ausgeschlossen. Das hat natürlich Konsequenzen. Weil ich beim Jassen mit dem Zufall rechnen muss, kann ich nicht wie beim Schach mit Gewissheiten, sondern muss mit Wahrscheinlichkeiten rechnen.

f) Verdeckte Informationen?

Das Nichtwissen bleibt nun für die Jasser während des ganzen Spiels eine Herausforderung. Während beim Schach zu jedem Zeitpunkt und für jeden Spieler alles offen auf dem Brett erkennbar ist, lebt das Jassen geradezu davon, dass der beteiligte Spieler NICHT weiss, wo sich die Karten befinden. Er muss also raten – d.h. mit Wahrscheinlichkeiten rechnen – und ein bestimmtes Risiko eingehen. Beim Schach gibt es kein Raten, die Situation ist immer klar, offen und evident. Selbstverständlich ist dadurch die Situation beim Schach wesentlich einfacher zu beschreiben, beim Jassen hingegen erschwert das Nicht-Wissen die Beschreibung der Situation.

g) Wahrscheinlichkeiten und Emotionen (Psychologie)

Wenn ich nicht alles weiss, muss ich mit Wahrscheinlichkeiten rechnen. Die Beobachtung zeigt, dass wir Menschen darin durchs Band sehr schlecht sind. Wir lassen uns dabei von Emotionen sehr viel stärker lenken, als wir uns das eingestehen möchten. Ängste und Hoffnungen bestimmen unsere Vorstellungen, und wir schätzen Wahrscheinlichkeiten oft grob falsch ein. Ein KI-Programm hat hier natürlich Vorteile, da Emotionen keine Rolle spielen und die Wahrscheinlichkeiten auch kalkulatorisch viel besser verarbeitet werden können. Doch die Maschine will ja einen Gegner besiegen und muss deshalb seine Reaktionen korrekt einschätzen. Das KI-Programm tut deshalb gut daran, den fehlerhaften Umgang des Gegenübers mit Wahrscheinlichkeiten in seine Überlegungen mit einzubeziehen, was algorithmisch aber nicht sehr einfach ist. Wie erkennt es den Optimisten? Der menschliche Spieler versucht den Gegner zu lesen und ihn gleichzeitig über die eigenen Emotionen zu täuschen. Das gehört zum Spiel. Es nützt dem Programm nichts, wenn es emotionslos rechnet, die Emotionen des Gegenübers aber nicht erkennen und bewerten kann.

h) Kommunikation 

Schach wird von einem Spieler gegen einen anderen gespielt. Gejasst wird meist zu viert, zwei Spieler gegen zwei andere. Dieser Aspekt, dass nämlich zwei Individuen ihre Aktionen miteinander abstimmen müssen, macht das Spiel interessant, und es wäre für ein Jass-Programm fatal, wenn es diesen Aspekt vernachlässigen würde. Wie sollen wir das nun programmieren? Beachten müssen wir dabei natürlich auch den Punkt f) oben, nämlich die Tatsache, dass ich die Karten meines Partners nicht sehen kann, ich kenne weder die Karten meiner Gegner, noch diejenigen meines Partners. Mein Partner und ich sind selbstverständlich daran interessiert, unser Spiel zu koordinieren, und dazu gehört, dass wir einander unsere Möglichkeiten (verdeckte Karten) und unsere Strategien (Absichten zum Spielverlauf) mitteilen. Wenn ich zum Beispiel ein Herz-As habe, möchte ich, dass mein Partner Herz spielt, sodass ich den Stich machen kann. Das darf ich ihm aber nicht offen sagen. Für routinierte Jasser ist das jedoch kein Problem. Erstens ergibt sich aus dem Spielverlauf oft, wer das Herz-As verdeckt in seinen Karten hat. Natürlich ist es nicht einfach, das herauszufinden, da dafür sowohl die gespielten Karten als auch mögliche Taktiken und Strategien in die Kalkulation einbezogen werden müssen. Die Zahl der Möglichkeiten, die Kalkulation der Wahrscheinlichkeiten und die Psychologie der Player kommen alle hier ins Spiel, was zu einer sehr spannenden Gemengelage führen kann – die ja letztlich auch den Reiz des Spiels ausmacht. Beim Schach hingegen, mit seiner stets sehr expliziten Situation, sind die Verhältnisse diesbezüglich sehr viel einfacher.

Doch es kommt noch dicker:

i) Der legale Graubereich

Kann ich mit meinem Partner wirklich nicht über unsere Karten und unsere Strategie kommunizieren? Offiziell ist das natürlich verboten – aber lässt sich das Verbot in der Praxis wirklich durchsetzen?

Natürlich nicht. Während beim Schach praktisch nur die expliziten Spielzüge eine Rolle spielen, gibt es beim Jassen viele zusätzliche Informationen, die ein geübter Spieler lesen können muss. Wie lächle ich, wenn ich eine Karte spiele? Wenn ich das Herz-As habe, das den nächsten Stich machen kann, möchte ich natürlich, dass mein Partner mir hilft und Herz ausspielt. Eine Möglichkeit das zu erreichen, wenn der Partner am Stich ist, ist es, eine wertlose Herzkarte zu spielen und sie dabei ganz deutlich und kräftig auf den Tisch zu hauen. Ein geübter Jasspartner wird das problemlos als Zeichen verstehen, als nächstes Herz und nicht etwa Karo auszuspielen, damit ich in der Folge mit meinem As den Stich machen kann. Niemand wird mir dieses Auf-den-Tisch-Hauen – solange es genügend diskret ist – wirklich verbieten können. Wirklich eingespielte Jassfreunde kennen neben den völlig legalen Zeichen, die sie automatisch durch die Wahl ihrer gespielten Karten abgeben, auch einige Zeichen aus dem Graubereich, mit denen sie ihr Spiel koordinieren.

Diese Zeichen sind Informationen, die eine ambitionierte KI erkennen und verarbeiten können muss. Die Menge der Information, die sie dabei verarbeiten muss, ist nicht nur viel grösser als die Informationsmenge beim Schach, sie ist auch keinesfalls limitiert. Meine KI spielt ja gegen zwei menschliche Gegner und auch diese kommunizieren. Ihre Kommunikation sollte die KI erkennen, um nicht hoffnungslos über den Tisch gezogen zu werden. Die von den Gegnern vereinbarten Zeichen können natürlich variieren und beliebig raffiniert sein. Wie findet meine KI heraus, wie sich die beiden vorgängig abgesprochen haben?

Fazit

Jassen ist schwieriger zu programmieren als Schach

Wenn wir ein Programm für das Jassen entwickeln wollen, müssen wir die Aspekte e) bis i) berücksichtigen, beim Schach hingegen spielen sie kaum eine Rolle. Algorithmisch gesehen stellen die Aspekte e) bis i) jedoch wegen ihrer Unwägbarkeiten eine schwierige Herausforderung dar.

Schach ist im Vergleich zum Jassen für den Computer wesentlich einfacher, da:

– immer gleiche Ausgangssituation
– keine verdeckte Information
– kein Einbezug von Wahrscheinlichkeitsüberlegungen
– geringe Rolle der menschlichen Emotionen
– kein legaler Graubereich, da kein Informationsaustausch zwischen zwei Partnern möglich ist

Schach ist deshalb für ein KI-Programm das einfachere Spiel. Es ist komplett definiert, d.h. die Informationsmenge, die im Spiel ist, ist sehr klein, klar offengelegt und klar begrenzt. Beim Jassen ist all das nicht der Fall.


Dies ist ein Beitrag zum Thema künstliche Intelligenz. Im zweiten Teil zum Thema Spiele und Intelligenz werde ich auf Go und Deep Learning eingehen.

Wie real ist das Wahrscheinliche?

Was nicht im Korpus ist, ist für die KI unsichtbar

Korpusbasierte KI-Systeme sind auf Erfolgskurs. Sie sind ‹disruptiv›, d.h. sie verändern unsere Gesellschaft nachhaltig und in sehr kurzer Zeit. Genügend Gründe also, sich zu vergegenwärtigen, wie diese Systeme effektiv funktionieren.

In den Vorbeiträgen habe ich  dargelegt, dass diese Systeme aus zwei Teilen bestehen, nämlich einem Daten-Korpus und einem neuronalen Netz. Selbstverständlich kann das Netz nichts erkennen, was nicht bereits im Korpus steckt. Die Blindheit des Korpus setzt sich automatisch im neuronalen Netz fort und die KI kann letztlich nur hervorbringen, was bereits in den Daten des Korpus vorgegeben ist. Ebenso verhält es sich mit Fehleingaben im Korpus. Auch diese finden sich in den Resultaten der KI und mindern insbesondere ihre Treffschärfe.

Wenn man sich die Wirkweise der KI vergegenwärtigt,  ist dieser Sachverhalt banal, denn der Lernkorpus ist die Grundlage für diese Art künstliche Intelligenz. Nur was im Korpus ist, kann im Resultat erscheinen und Fehler und Unschärfen des Korpus vermindern automatisch die Aussagekraft.

Weniger banal ist ein anderer Aspekt, der mit der künstlichen Intelligenz der neuronalen Netze ebenfalls essenziell verbunden ist. Es handelt sich um die Rolle der Wahrscheinlichkeit. Neuronale Netze funktionieren über Wahrscheinlichkeiten. Was genau heisst das und wie wirkt sich das in der Praxis aus?

Das neuronale Netz bewertet nach Wahrscheinlichkeit

Ausgangslage

Schauen wir wieder unsere Suchmaschine vom Vorbeitrag an: Ein Kunde unserer Suchmaschine gibt einen Suchstring ein. Andere Kunden haben bereits vorher den gleichen Suchstring eingegeben. Wir schlagen deshalb dem Kunden diejenigen Websites vor, die bereits die früheren Kunden ausgewählt haben. Weil das unübersichtlich viele sein können, wollen wir dem Kunden diejenigen zuoberst zeigen, die für ihn am interessantesten sind (siehe Vorbeitrag). Dazu bewerten wir alle Kunden gemäss ihren bisherigen Suchanfragen. Wie wir das im Detail machen, ist natürlich unser Geschäftsgeheimnis, schliesslich wollen wir gegenüber der Konkurrenz einen Vorsprung herausholen. Wie immer aber wir das auch tun – und wie immer es die Konkurrenz auch tut – am Schluss erhalten wir eine Gewichtung der Vorschläge der bisherigen Nutzer. Anhand dieser Gewichtung wählen wir die Vorschläge aus, die wir dem Fragesteller präsentieren, und die Reihenfolge, in der wir sie ihm zeigen. Und dabei sind die Wahrscheinlichkeiten entscheidend.

Beispiel

Nehmen wir an, der Anfragesteller A stellt  eine Suchanfrage an unsere Suchmaschine und die beiden Kunden B und C haben bereits die gleiche Suchanfrage wie A gestellt  und ihre Wahl, d.h. die Adressen der von ihnen gewählten Websites, in unserem gut gefüllten Korpus hinterlassen. Welche Auswahl sollen wir nun A bevorzugt präsentieren, die von B oder die von C?

Jetzt schauen wir uns die Bewertungen der drei Kunden an: Wie sehr stimmt das Profil von B und C mit dem Kunden A überein? Nehmen wir an, wir kommen auf folgende Übereinstimmungen:

Kunde B:  80%
Kunde C: 30%

Selbstverständlich nehmen wir an, dass Kunde B mit A besser übereinstimmt als C, und A deshalb mit den Antworten von B besser bedient ist.

Ist das aber sicher so?

Die Frage ist berechtigt, denn schliesslich besteht zu keinem der beiden anderen User eine vollständige Übereinstimmung. Vielleicht betreffen gerade die 30%, mit denen A und C übereinstimmen, das Gebiet der aktuellen Suchanfrage von A. Da wäre es schade, die Antwort von B bevorzugt zu platzieren, insbesondere wenn die 80% Übereinstimmung zu B ganz andere Gebiete betrifft, die mit der aktuellen Suchanfrage nichts zu tun haben. Zugegeben, die skizzierte Abweichung von der Wahrscheinlichkeit ist im konkreten Fall unwahrscheinlich, aber sie ist nicht unmöglich – das ist die eigentliche Crux mit den Wahrscheinlichkeiten.

Nun, wir entscheiden uns in diesem Fall vernünftigerweise für B, und wir können sicher sein, dass die Wahrscheinlichkeit auf unserer Seite ist. Für unseren Geschäftserfolg können wir uns getrost auf die Wahrscheinlichkeit verlassen. Warum?

Das hängt mit dem Prinzip der ‹grossen Zahl‹ zusammen. Für den einzelnen Fall kann – wie oben geschildert – die Antwort von C wirklich die bessere sein. In den meisten Fällen aber wird die Antwort von B unserem Kunden besser gefallen und wir tun gut daran, ihm diese Antwort zu geben. Das ist das Prinzip der ‹grossen Zahl›. Es liegt dem Phänomen Wahrscheinlichkeit essenziell zugrunde:

Im Einzelfall kann etwas geschehen, was unwahrscheinlich ist, für viele Fälle können wir uns aber darauf verlassen, dass meistens das Wahrscheinliche geschieht.

Fazit für unsere Suchmaschine
  1. Wenn wir uns also dafür interessieren, in den meisten Fällen recht zu bekommen, halten wir uns an die Wahrscheinlichkeit.
  2. Wir nehmen dabei in Kauf, dass wir in seltenen Fällen daneben greifen.
Fazit für die korpusbasierte KI generell

Was für unsere Suchmaschine gilt, gilt ganz generell für jede korpusbasierte KI, da eine solche immer mit Wahrscheinlichkeiten funktioniert. Somit lautet das Fazit für die korpusbasierte KI:

  1. Wenn wir uns dafür interessieren, in den meisten Fällen recht zu bekommen, halten wir uns an die Wahrscheinlichkeit.
  2. Wir nehmen dabei in Kauf, dass wir in seltenen Fällen daneben greifen.

Wir müssen bei der korpusbasierten KI mit einer inhärenten Schwäche rechnen, einer Art Achillesferse einer sonst hochpotenten Technologie. Diese Ferse sollten wir sorgfältig weiter beobachten:

  1. Vorkommen:
    Wann tritt der Fehler eher auf, wann kann man ihn eher vernachlässigen? Dies hängt mit der Grösse des Korpus und seiner Qualität, aber auch mit der Art der Fragestellung zusammen.
  2. Konsequenzen:
    Was hat es für Folgen, wenn seltene Fälle vernachlässigt werden?
    Kann das permanente Mitteln und Beachten nur der wahrscheinlichsten Lösungen als intelligent bezeichnet werden?
  3. Zusammenhänge:
    Für die grundlegenden Zusammenhänge interessant ist der Bezug zum Begriff der Entropie: Der 2. Hauptsatz der Wärmelehre besagt, dass in einem geschlossenen System immer das Wahrscheinlichere geschieht und die Wärmelehre misst diese Wahrscheinlichkeit anhand der Variablen S, welche sie als Entropie bezeichnet.
    Das Wahrscheinliche geschieht, in der Wärmelehre und in unserer Suchmaschine – wie aber wählt eine natürliche Intelligenz?

Dies ist ein Beitrag zum Thema künstliche Intelligenz. Im nächsten Beitrag geht es um Spiele und Intelligenz, konkret um den Unterschied zwischen Schach und Jassen.