Alle Artikel von Hans Rudolf Straub

Statisches und Dynamisches IF-THEN, Teil 2


Dieser Beitrag setzt den Einstiegsbeitrag über das dynamische IF-THEN fort.


Mehrere IF-THENs nebeneinander

IF A, THEN B
IF A, THEN C

Wenn aus einer Bedingung A ein Schluss B und gleichzeitig auch ein Schluss C gezogen werden kann, welcher Schluss wird dann zuerst gezogen?

Statische und Dynamische Logik

Für die klassische Logik spielt das keine Rolle, da A, B und C in einem statischen System immer simultan existieren und ihren Wahrheitsgehalt nicht ändern. Es kommt also nicht darauf an, ob zuerst der eine oder der andere Schluss gezogen wird.

Ganz anders ist das für die dynamische Logik – also in einer Realsituation. Wenn ich mich für B entscheide, kann es sein, dass ich dabei die Möglichkeit C quasi «aus den Augen verliere». Die Aussage B ist ja meist mit weiteren anderen Aussagen verbunden und diese Möglichkeiten können meinen Prozessor weiterhin beschäftigen, sodass der Prozessor gar keine Zeit hat für die Aussage C.

Umgang mit Widersprüchen

Ein weiteres Moment kommt dazu: Die Aussagen B und C führen über weitere Schlüsse zu weiteren Aussagen D, E, F usw. In einem statischen System müssen alle Aussagen, die durch weitere gültige Schlüsse gezogen werden untereinander kompatibel sein. Diese absolute Gewissheit ist bei realen Aussagen nicht gegeben. Deshalb ist es nicht auszuschliessen, dass z.B. die Aussagen D und E einander widersprechen. Und in dieser Situation kommt es darauf an, ob D oder E zuerst erreicht wird.

Ein dynamisches System muss mit dieser Situation umgehen können. Es muss die sich widersprechenden Aussagen D und E aktiv halten können und sie gegeneinander «erwägen», d.h. ihre Relevanz und Plausibilität unter Berücksichtigung der jeweiligen Kontexte analysieren. Wenn Sie so wollen, ist das der normale Denkvorgang.

Dabei spielt es eine Rolle, ob ich zuerst B oder C «erwäge». Je nachdem gerate ich in ein ganz anderes «Feld» von Aussagen. Mit Sicherheit werden sich die einen oder anderen Aussagen aus den beiden Felder widersprechen. Für die statische Logik würde das den Zusammenbruch des Systems bedeuten. Für die dynamische Logik ist das aber ganz normal, im Gegenteil: Der Widerspruch ist der Anlass, das System von Aussagen an dieser Stelle genauer anzusehen. Er ist die Spannung, die das System antreibt und den Denkvorgang aktiv erhält – bis die Widersprüche aufgelöst sind.

Diese Dynamik des Denkens zu beschreiben, ist das Ziel der Logodynamik.

Wahrheit – ein Findungsprozess

Sie können es als eine Schwäche des dynamischen Systems anschauen, dass die Wahrheitsgehalte der Aussagen nicht von Anfang an festgesetzt sind. Andererseits ist das eben genau unsere Situation, dass wir NICHT von Anfang an wissen, was wahr ist und was nicht, und dass wir unser System von Aussagen erst erarbeiten müssen. Wie dieses Erarbeiten funktioniert, darüber kann uns die statische Logik nichts sagen, genau dafür brauchen wir eine dynamische Logik.

Denken und Zeit

Beim realen Denken spielt die Zeit eine Rolle. Es kommt real darauf an, welcher Schluss zuerst gezogen wird. Das macht die Geschichte in der dynamischen Logik zugegebenermassen etwas schwieriger. Wenn wir den Vorgängen in der Realsituation auf die Spur kommen wollen, müssen wir aber akzeptieren, dass Realvorgänge stets in der Zeit ablaufen. Wir können die Zeit nicht aus dem Denken herausnehmen – und auch aus unserer Logik nicht.

Die statische Logik tut dies aber. Deshalb kann sie nur einen Ergebnis des Denkens beschreiben, den Endpunkt eines Vorgangs in der Zeit. Was während dem Denken geschieht, damit beschäftigt sich die Logodynamik.

Determinismus – eine liebgewordene Gewohnheit

Wenn ich aus A sowohl B wie auch C schliessen kann, und je nachdem, welchen Schluss ich zuerst ziehe, der Denkprozess sich in eine andere Richtung entwickelt, dann muss ich einer weiteren unangenehmen Tatsache ins Auge sehen: ich kann nämlich aus der Ausgangssituation (also der Menge von an als wahr akzeptierten Aussagen A) nicht ableiten, welchen Weg ich einschlage. Mit anderen Worten: Mein Denkvorgang ist nicht determiniert – jedenfalls nicht aus der Menge des bereits Erkannten.

Das ist einerseits bedauerlich, denn ich kann nie ganz sicher sein, ob ich richtig schliesse, ich habe dafür einfach zu viele Alternativen. Andererseits gibt mir das auch Freiheit. Im dem Moment, wo ich mich entscheiden muss, den Weg über B oder C zuerst zu verfolgen – und das ohne schon das Gesamtsystem zu durchschauen, also in meiner Realsituation – in diesem Moment erhalte ich auch die Freiheit, selber zu entscheiden.

Freiheit – eine Sicherheit gibt es nicht

Logodynamik untersucht somit den Denkvorgang für Systeme, welche die Wahrheit erst finden müssen. Diese Systeme sind auch nicht in der Lage, unbeschränkt viele Schlüsse gleichzeitig zu untersuchen. Das ist die Realsituation. Somit haben diese Systeme eine gewisse Willkür, aus eigenem Gutdünken zu entscheiden. Was für Denkstrukturen dabei entstehen, welche Vor- und Nachteile sie haben, und was dabei vorausgesetzt werden kann, untersucht die Logodynamik.

Klar ist: Eine sichere Ableitbarkeit kann nicht vorausgesetzt werden. Das ist bedauerlich und wir wären lieber auf der sicheren Seite. Aber erst diese Unsicherheit ermöglicht uns, frei zu denken.

Das dynamische IF-THEN ist nötig

Der rein denkpraktische Aspekt ist, dass für den Prozess der Wahrheits-Findung die statische Logik nicht ausreicht. Die Statik beschreibt nur das gefundene widerspruchsfreie System. Die vorhergehende Diskussion darüber, ob das System die Widersprüche löst und wie, wird erst durch die logodynamische Beschreibung sichtbar.

Mit anderen Worten: Die statische Logik ist unvollständig. Zur Untersuchung des realen Denkvorgangs ist die etwas heiklere dynamische Logik unverzichtbar. Wir verlieren dabei an Sicherheit, gewinnen aber an Realitätsnähe.


Dies ist ein Beitrag zur dynamischen Logik. Der Vorbeitrag unterschied das dynamische vom statischen IF-THEN.

Die korpusbasierte KI überwindet ihre Schwächen

Zwei KI-Varianten: regelbasiert und korpusbasiert

Im Vorbeitrag erwähnte ich die beiden prinzipiellen Herangehensweisen, mit der versucht wird, dem Computer Intelligenz beizubringen, nämlich die regelbasierte und die korpusbasierte. Bei der regelbasierten steckt die Intelligenz in einem Regelpool, der von Menschen bewusst konstruiert wird. Bei der korpusbasierten Methode steckt das Wissen im Korpus, d.h. in einer Datensammlung, welche von einem raffinierten Programm analysiert wird.

Beide Methoden haben ihre Leistungen seit den 90er Jahren gewaltig steigern können. Am eindrücklichsten ist dies bei der korpusbasierten Methode geschehen, die heute als eigentliche künstliche Intelligenz gilt und in der breiten Öffentlichkeit für Schlagzeilen sorgt. Worauf beruhen die entscheidenden Verbesserungen der beiden Methoden? – Ich werde gleich auf beide Methoden und ihre Verbesserungen eingehen. Als erstes sehen wir uns an, wie die korpusbasierte KI funktioniert.

Wie funktioniert die korpusbasierte KI?

Eine korpusbasierte KI besteht aus zwei Teilen:

  1. Korpus
  2. Algorithmen (neuronales Netz)
k-KI mit Korpus und neuronalem Netz
Abb 1: Aufbau einer korpusbasierten KI

Der Korpus, auch Lernkorpus genannt, ist eine Sammlung von Daten. Dies können z.B. Photographien von Panzern oder Gesichtern sein, aber auch Sammlungen von Suchanfragen, z.B. von Google. Wichtig ist, dass der Korpus die Daten bereits bewertet enthält. Im Panzerbeispiel ist im Korpus vermerkt, ob es sich um eigene oder feindliche Panzer handelt. In der Gesichtersammlung ist vermerkt, um wessen Gesicht es sich jeweils handelt; bei den Suchanfragen speichert Google, welcher Link der Suchende anklickt, d.h. welcher Vorschlag von Google erfolgreich ist. Im Lernkorpus steckt also das Wissen, das die korpusbasierte KI verwenden wird.

Nun muss die KI lernen. Das Ziel ist, dass die KI ein neues Panzerbild, ein neues Gesicht oder eine neue Suchanfrage korrekt zuordnen kann. Dazu verwendet die KI das Wissen im Korpus, also z.B. die Bilder der Panzersammlung, wobei bei jedem Bild vermerkt ist, ob es sich um eigene oder fremde Panzer handelt – in Abb. 1 dargestellt durch die kleinen grauen und grünen Etiketten links von jedem Bild. Diese Bewertungen sind ein notwendiger Teil des Korpus.

Jetzt kommt der zweite Bestandteil der korpusbasierten KI ins Spiel, der Algorithmus. Im Wesentlichen handelt es sich um ein neuronales Netz. Es besteht aus mehreren Schichten von ‹Neuronen›, die Inputsignale aufnehmen, gegeneinander verrechnen und dann ihre eigenen Signale an die nächsthöhere Schicht ausgeben. In Abb. 1 ist dargestellt, wie die erste (gelbe) Neuronenschicht die Signale (Pixel) aus dem Bild aufnimmt und nach einer Verrechnung dieser Signale eigene Signale an die nächste (orange) Schicht weitergibt, bis am Schluss das Netz zum Resultat ‹eigener› oder ‹fremder› Panzer gelangt. Die Verrechnungen (Algorithmen) der Neuronen werden beim Training so lange verändert und angepasst, bis das Gesamtnetz bei jedem Bild das korrekte Resultat liefert.

Wenn jetzt ein neues, noch unbewertetes Bild dem neuronalen Netz vorgelegt wird, verhält sich dieses genau gleich wie bei den anderen Bildern. Wenn das Netz gut trainiert worden ist, sollte der Panzer vom Programm selbstständig zugeordnet werden können, d.h. das neuronale Netz erkennt, ob das Bild einen eigenen oder  fremden Panzer darstellt (Abb. 2).

Suchanfrage mit unbekanntem Panzer

Abb. 2: Suchanfrage mit noch nicht klassifiziertem Panzer an das neuronale Netz

Die Bedeutung des Datenkorpus für die korpusbasierte KI

Die korpusbasierte KI findet ihr Detailwissen im eigens für sie bereitgestellten Korpus vor und wertet die Verbindungen aus, die sie dort antrifft. Der Korpus enthält somit das Wissen, welches die korpusbasierte KI auswertet. Das Wissen besteht in unserem Beispiel in der Verbindung der Photographie, also einer Menge von wild angeordneten Pixeln mit einer einfachen binären Information (unser Panzer/fremder Panzer). Dieses Wissen findet sich im Korpus bereits bevor eine Auswertung durch die Algorithmen stattfindet. Die Algorithmen der korpusbasierte KI finden also nichts heraus, was nicht im Korpus steckt. Allerdings: Das im Korpus gefundene Wissen kann die korpusbasierte KI nun auch auf neue und noch nicht bewertete Fälle anwenden.

Die Herausforderungen an die korpusbasierte KI

Die Herausforderungen an die korpusbasierte KI sind eindeutig:

  1. Grösse des Korpus: Je mehr Bilder sich im Korpus befinden, umso sicherer kann die Zuordnung erfolgen. Ein zu kleiner Korpus bringt Fehlresultate. Die Grösse des Korpus ist für die Präzision und Zuverlässigkeit der Resultate entscheidend.
  2. Hardware: Die Rechenleistung, welche die korpusbasierte KI benötigt, ist sehr gross; und sie wird umso grösser, je präziser die Methode sein soll. Die Performance der Hardware entscheidet über die praktische Anwendbarkeit der Methode.

Dadurch wird schnell klar, wie die korpusbasierte KI ihre Leistung in den letzten zwei Jahrzehnten so eindrücklich verbessern konnte:

  1. Die Datenmengen, welche Google und andere Organisationen im Internet sammeln können, sind drastisch angestiegen. Google profitiert dabei von einem nicht unbedeutenden Verstärkungseffekt: Je mehr Anfragen Google bekommt, umso besser wird der Korpus und damit seine Trefferquote. Je besser die Trefferquote, umso mehr Anfragen bekommt Google.
  2. Die Hardware, welche zur Auswertung der Daten benötigt wird, wird immer günstiger und performanter. Internetfirmen und andere Organisationen verfügen heute über riesige Serverfarmen, welche die rechenintensiven Auswertungen der korpusbasierten KI erst möglich machen.

Neben dem Korpus und der Hardware spielt natürlich auch die Raffinesse der Algorithmen eine Rolle. Die Algorithmen waren aber auch schon vor Jahrzehnten nicht schlecht. Im Vergleich zu den beiden anderen Faktoren – Hardware und Korpus – spielt der Fortschritt bei den Algorithmen für den beeindruckenden Erfolg der korpusbasierten KI nur eine bescheidene Rolle.

Der Erfolg der korpusbasierten KI

Die Herausforderungen an die korpusbasierte KI wurden von den grossen Firmen und Organisationen äusserst erfolgreich angegangen.

Auf Basis der oben erfolgten Beschreibung der Funktionsweise sollten aber auch die systemimmanenten und in den Medien etwas weniger prominent platzierten Schwächen der korpusbasierten KI erkennbar werden. In einem späteren Beitrag werde ich genauer darauf eingehen.


Dies ist ein Beitrag zum Thema künstliche Intelligenz. In der Fortsetzung sehen wir die Herausforderungen für die regelbasierte KI an.

Mein Perpetuum mobile

Die  Erfindung

Ich habe ein Perpetuum mobile erfunden. Obwohl es schon lange her ist, kann ich mich noch genau daran erinnern. Ich war ungeheuer stolz darauf und konnte nicht verstehen, warum meine Umgebung mir meine einleuchtende Idee nicht abnahm.

Aufgrund der Details kann ich die Erfindung auch zeitlich genau datieren. Ich war damals zehn Jahre alt. Und wie bei jeder anderen Erfindung war es ein Zusammentreffen von zwei Beweggründen, die mir die Erfindung ermöglichten. Der eine Grund war das Ziel (Causa finalis) und der andere die formale Möglichkeit (Causa formalis), die es ermöglichte, das Ziel zu erreichen. Der Trick bei einer Erfindung besteht darin, die beiden Gründe zusammenzubringen, obwohl sie auf den ersten Blick gar nichts miteinander zu tun haben. Das war auch bei meiner Erfindung so.

Der Rasenmäher

Das Ziel (Causa finalis) war ein Rasenmäher. Mein Vater wollte einen anschaffen und ich hörte eine Diskussion darüber. Möglicherweise ging es darum, ob es ein benzingetriebener oder ein moderner elektrischer sein sollte. Jedenfalls erkannte ich eine dritte Möglichkeit. Hier kommt nun der zweite Grund, nämlich die Causa formalis zum Zug. Ich war zu der Zeit fasziniert von Zahnrädern (Wilber-Adepten:  das muss wohl das orange Mem gewesen sein) und kannte auch die Möglichkeit von gespannten Metallfedern. Das ermöglichte mir die Verbindung von Form und Ziel.

Ich hatte bereits begeistert eine Serie von ineinander greifenden Zahnräder verschiedener Durchmesser auf ein Papier gezeichnet, welche die Kraft einer gespannten Metallfeder übertrugen. Die Erfindung bestand nun darin, dass am Ende der Kraftübertragung eine zweite Metallfeder stand, die von der ersten angespannt wurde. Diese zweite Metallfeder hatte natürlich die Möglichkeit – über eine weitere phantastische Anordnung von Zahnrädern – die erste Feder zu spannen. Somit war die erste wieder bereit, über ihre Serie von Zahnrädern die zweite zu spannen – und so fort. Ein perfektes Perpetuum mobile. Ich verstand meinen Vater nicht, der es ablehnte, auf der Basis meiner genialen Idee einen Rasenmäher zu konstruieren. der weder Strom noch Benzin braucht.

Aber ich liess mich nicht beirren. Trotz diesem Rückschlag versuchte ich meine Idee weiter zu perfektionieren. Es war mir nämlich klar, dass das Konzept noch vereinfacht werden konnte. Es waren ja gar nicht alle Zahnräder nötig. Also erstellte ich eine neue Skizze. Und dann mit noch weniger Zahnräder eine weitere.  Ich kam gut vorwärts. Schliesslich gelang es mir, das Konzept auf eine einzige Achse mit zwei Metallfedern zu reduzieren. Die erste zog die zweite auf, die zweite dann wieder die erste. Genial einfach, nicht wahr?

In diesem Moment aber geschah etwas. Ich sah die Achse mit den beiden Metallfedern vor mir und mir wurde ganz gegen meinen Willen, aber auch ganz deutlich klar, dass das nicht funktionieren konnte. Ich sah die beiden Metallfedern auf der einen gemeinsamen Achse vor meinem geistigen Auge, wie sie ihre Kräfte gegeneinander ausspielten und sich schliesslich bei einem Kräftegleichstand trafen, und dass die Anlage in diesem Moment keinen Grund mehr hätte, sich in irgend einer Richtung zu bewegen. Es war bitter, aber meine Perpetuum mobile war gestorben.

Und die Lehre daraus?

Nicht alles, was sich super anfühlt, funktioniert auch. Aber dafür hatte ich ein anschauliches Beispiel für den Energieerhaltungssatz, das ich nicht so leicht vergessen konnte. Und noch ein weiteres Prinzip steckt in der Geschichte meiner gescheiterten Erfindung, nämlich das Parsimonitätsprinzip. Vermutlich kennen Sie den Namen nicht, aber das Prinzip kennen Sie bestimmt. Es handelt sich um ein allgemeines Konstruktionsprinzip, das besagt, dass man in Konstruktionen stets das Einfache suchen soll und alles überflüssige wegstreiche. Keep it simple, mit anderen Worten. Genau das hatte ich getan, als ich die überflüssigen Zahnräder wegstrich und nur noch die eine Achse mit den Federn behielt. Dadurch war es mir möglich, die Essenz meiner Erfindung zu erkennen – und gegen meinen Willen auch ihr Scheitern.

Parsimonitätsprinzip (nach Ockham)

Das Parsimonitätsprinzip ist auch unter den Namen Ökonomieprinzip und Ockham’s Razor bekannt. Wilhelm von Ockham (1288-1347) formulierte es so: «frustra fit per plura quod fieri potest per pauciora»  (Umsonst geschieht durch Mehreres, was sich mit Wenigem tun läßt ). Er wandte diesen Satz auf Begriffe an und plädierte dafür, die Zahl der Begriffe nicht ohne Notwendigkeit zu vermehren. Dem kann ich nur zustimmen.

Mein Vater hat übrigens einen elektrischen Rasenmäher gekauft.

Regelbasierte KI: Wo steckt die Intelligenz?

Zwei KI-Varianten: regelbasiert und korpusbasiert

Die in den Vorbeiträgen erwähnten beiden KI-Varianten sind auch heute noch aktuell, und beide haben bemerkenswerte Erfolge zu verbuchen. Sie unterscheiden sich nicht zuletzt darin, wo genau bei ihnen die Intelligenz sitzt. Schauen wir zuerst das regelbasierte System an:

Aufbau eines regelbasierten Systems

Bei der Firma Semfinder verwendeten wir ein regelbasiertes System. Ich zeichnete 1999 dafür folgende Skizze:

Grün: Daten
Braun: Software
Hellblau: Knowledge Ware
Dunkelblau: Knowledge Engineer

Die Skizze besteht aus zwei Rechtecken, die zwei verschiedene Orte bezeichnen. Das Rechteck links unten zeigt, was im Krankenhaus geschieht, das Rechteck rechts oben, was zusätzlich im Knowledge Engineering abläuft.

Im Krankenhaus liest unser Kodierprogramm die Freitexte der Ärzte, interpretiert sie  zu Begriffsmolekülen und weist diesen mit Hilfe einer Wissensbasis die entsprechenden Kodes zu. Die Wissensbasis enthält die Regeln, mit denen die Texte interpretiert werden. Diese Regeln werden bei uns in der Entwicklerfirma von Menschen (Human Experts) erstellt. Die Regeln sind vergleichbar mit den Algorithmen eines Software-Programms, nur dass sie in einer «höheren» Programmiersprache geschrieben sind, sodass auch Nicht-Informatiker, nämlich die Domain-Experten, die in unserem Fall Ärzte sind, sie einfach bauen und sicher warten können. Dazu verwenden sie den Wissensbasis-Editor, eine weitere Software, welche es erlaubt, die Regeln zu sichten, zu testen, zu modifizieren oder auch ganz neu zu bauen.

Wo sitzt nun die Intelligenz?

Sie steckt in der Wissensbasis. Aber es handelt sich nicht um wirkliche Intelligenz. Die Wissensbasis kann nicht selbstständig denken, sie führt nur aus, was ein Mensch ihr vorgegeben hat. Ich habe deshalb unser System nie als ein intelligentes bezeichnet. Intelligenz bedeutet im mindesten, dass man neue Dinge lernen kann. Die Wissensbasis lernt aber nichts. Wenn ein neues Wort auftaucht oder ein neuer Aspekt der Kodierung eingebaut wird, dann macht dies nicht die Wissensbasis, sondern der Knowledge Engineerjj, also der Mensch. Der Rest (Hardware, Software, Wissensbasis) führt nur aus, was der Mensch vorgibt. Die Intelligenz in unserem System war immer und ausschliesslich Sache der Menschen – also eine natürliche und keine künstliche.


Ist das bei der korpusbasierten Methode anders? Im Folgebeitrag schauen wir dazu ein solches korpusbasiertes System genauer an.

Dies ist ein Beitrag zum Thema künstliche Intelligenz.

Zur KI: Schnaps und Panzer

KI im letzten Jahrhundert

KI ist heute ein grosses Schlagwort, war aber bereits in den 80er und 90er Jahren des letzten Jahrhunderts ein Thema, das für mich auf meinem Gebiet des Natural Language Processing interessant war. Es gab damals zwei Methoden, die gelegentlich als KI bezeichnet wurden und die unterschiedlicher nicht hätten sein können. Das Spannende daran ist, dass diese beiden unterschiedlichen Methoden heute noch existieren und sich weiterhin essenziell voneinander unterscheiden.

KI-1: Schnaps

Die erste, d.h. die Methode, die bereits die allerersten Computerpioniere verwendeten, war eine rein algorithmische, d.h. eine regelbasierte. Beispielhaft für diese Art Regelsysteme sind die Syllogismen des Aristoteles:

Prämisse 1: Alle Menschen sind sterblich.
Prämisse 2: Sokrates ist ein Mensch.
Schlussfolgerung: Sokrates ist sterblich.

Der Experte gibt Prämisse 1 und 2 ein, und das System zieht dann selbstständig die Schlussfolgerung. Solche Systeme lassen sich mathematisch untermauern. Mengenlehre und First-Order-Logic (Aussagelogik ersten Grades) gelten oft als sichere mathematische Grundlage. Theoretisch waren diese Systeme somit wasserdicht abgesichert. In der Praxis sah die Geschichte allerdings etwas anders aus. Probleme ergaben sich durch die Tatsache, dass auch die kleinsten Details in das Regelsystem aufgenommen werden mussten, da sonst das Gesamtsystem «abstürzte», d.h. total abstruse Schlüsse zog. Die Korrektur dieser Details nahm mit der Grösse des abgedeckten Wissens überproportional zu. Die Systeme funktionierten allenfalls für kleine Spezialgebiete, für die klare Regeln gefunden werden konnten, für ausgedehntere Gebiete wurden die Regelbasen aber zu gross und waren nicht mehr wartbar. Ein weiteres gravierendes Problem war die Unschärfe, die vielen Ausdrücken eigen ist, und die mit solchen hart-kodierten Systemen schwer in den Griff zu bekommen ist.

Diese Art KI geriet also zunehmend in die Kritik. Kolportiert wurde z.B. folgender Übersetzungsversuch: Ein NLP-Programm übersetzte Sätze vom Englischen ins Russische und wieder zurück, dabei ergab die Eingabe:
«Das Fleisch ist willig, aber der Geist ist schwach» die Übersetzung:
«Das Steak ist kräftig, aber der Schnaps ist lahm.»

Die Geschichte hat sich vermutlich nicht genau so zugetragen, aber das Beispiel zeigt die Schwierigkeiten, wenn man versucht, Sprache mit regelbasierten Systemen einzufangen. Die Anfangseuphorie, die seit den 50er Jahren mit dem «Elektronenhirn» und seiner «maschinellen Intelligenz» verbunden worden war, verblasste, der Ausdruck «Künstliche Intelligenz» wurde obsolet und durch den Ausdruck «Expertensystem» ersetzt, der weniger hochgestochen klang.

Später, d.h. um 2000, gewannen die Anhänger der regelbasierten KI allerdings wieder Auftrieb. Tim Berners-Lee, Pionier des WWW, lancierte zur besseren Benutzbarkeit des Internets die Initiative Semantic Web. Die Experten der regelbasierten KI, ausgebildet an den besten technischen Hochschulen der Welt, waren gern bereit, ihm dafür Wissensbasen zu bauen, die sie nun Ontologien nannten. Bei allem Respekt vor Berners-Lee und seinem Bestreben, Semantik ins Netz zu bringen, muss festgestellt werden, dass die Initiative Semantic Web nach bald 20 Jahren das Internet nicht wesentlich verändert hat. Meines Erachtens gibt es gute Gründe dafür: Die Methoden der klassischen mathematischen Logik sind zu rigid, die komplexen Vorgänge des Denkens nachzuvollziehen – mehr dazu in meinen anderen Beiträgen, insbesondere zur statischen und dynamischen Logik. Jedenfalls haben weder die klassischen regelbasierten Expertensysteme des 20. Jahrhunderts noch die Initiative «Semantic Web» die hoch gesteckten Erwartungen erfüllt.

KI-2: Panzer

In den 90er Jahren gab es aber durchaus auch schon Alternativen, die versuchten, die Schwächen der rigiden Aussagenlogik zu korrigieren. Dazu wurde das mathematische Instrumentarium erweitert.

Ein solcher Versuch war die Fuzzy Logic. Eine Aussage oder eine Schlussfolgerung war nun nicht mehr eindeutig wahr oder falsch, sondern der Wahrheitsgehalt konnte gewichtet werden. Neben Mengenlehre und Prädikatenlogik hielt nun auch die Wahrscheinlichkeitstheorie Einzug ins mathematische Instrumentarium der Expertensysteme. Doch einige Probleme blieben: Wieder musste genau und aufwendig beschrieben werden, welche Regeln gelten. Die Fuzzy Logic gehört also ebenfalls zur regelbasierten KI, wenn auch mit Wahrscheinlichkeiten versehen. Heute funktionieren solche Programme in kleinen, wohlabgegrenzten technischen Nischen perfekt, haben aber darüberhinaus keine Bedeutung.

Eine andere Alternative waren damals die Neuronalen Netze. Sie galten als interessant, allerdings wurden ihre praktischen Anwendungen eher etwas belächelt. Folgende Geschichte wurde dazu herum

gereicht:

Die amerikanische Armee – seit jeher ein wesentlicher Treiber der Computertechnologie – soll ein neuronales Netz zur Erkennung von eigenen und fremden Panzern gebaut haben. Ein neuronales Netz funktioniert so, dass die Schlussfolgerungen über mehrere Schichten von Folgerungen vom System selber gefunden werden. Der Mensch muss also keine Regeln mehr eingeben, diese werden vom System selber erstellt.

Wie kann das System das? Es braucht dazu einen Lernkorpus. Bei der Panzererkennung war das eine Serie von Fotos von amerikanischen und russischen Panzern. Für jedes Foto war also bekannt, ob amerikanisch oder russisch, und das System wurde nun so lange trainiert, bis es die geforderten Zuordnungen selbstständig erstellten konnte. Die Experten nahmen auf das Programm nur indirekt Einfluss, indem sie den Lernkorpus aufbauten; das Programm stellte die Folgerungen im neuronalen Netz selbstständig zusammen – ohne dass die Experten genau wussten, aus welchen Details das System mit welchen Regeln welche Schlüsse zog. Nur das Resultat musste natürlich stimmen. Wenn das System nun den Lernkorpus vollkommen integriert hatte, konnte man es testen, indem man ihm einen neuen Input zeigte, z.B. ein neues Panzerfoto, und es wurde erwartet, dass es mit den aus dem Lernkorpus gefundenen Regeln das neue Bild korrekt zuordnete. Die Zuordnung geschah, wie gesagt, selbständig durch das System, ohne dass der Experte weiteren Einfluss nahm und ohne dass er genau wusste, wie im konkreten Fall die Schlüsse gezogen wurden.

Das funktionierte, so wurde erzählt, bei dem Panzererkennungsprogramm perfekt. So viele Fotos dem Programm auch gezeigt wurden, stets erfolgte die korrekte Zuordnung. Die Experten konnten selber kaum glauben, dass sie wirklich ein Programm mit einer hundertprozentigen Erkennungsrate erstellt hatten. Wie konnte so etwas sein? Schliesslich fanden sie den Grund: Die Fotos der amerikanischen Panzer waren in Farbe, diejenigen der russischen schwarzweiss. Das Programm musste also nur die Farbe erkennen, die Silhouetten der Panzer waren irrelevant.

Regelbasiert versus korpusbasiert

Die beiden Anekdoten zeigen, welche Probleme damals auf die regelbasierte und die korpusbasierte KI warteten.

  • Bei der regelbasierten KI waren es:
    – die Rigidität der mathematischen Logik
    – die Unschärfe unserer Wörter
    – die Notwendigkeit, sehr grosse Wissenbasen aufzubauen
    – die Notwendigkeit, Fachexperten für die Wissensbasen einzusetzen
  • Bei der korpusbasierten KI waren es:
    – die Intransparenz der Schlussfolgerungs-Wege
    – die Notwendigkeit, einen sehr grossen und relevanten Lernkorpus aufzubauen

Ich hoffe, dass ich mit den beiden oben beschriebenen, zugegebenermassen etwas unfairen Beispielen den Charakter und die Wirkweise der beiden KI-Typen habe darstellen können, mitsamt den Schwächen, die die beiden Typen jeweils kennzeichnen.

Die Herausforderungen bestehen selbstverständlich weiterhin.  In den folgenden Beiträgen werde ich darstellen, wie die beiden KI-Typen darauf reagiert haben und wo bei den beiden Systemen nun wirklich die Intelligenz sitzt. Als Erstes schauen wir die korpusbasierte KI an.

Dies ist ein Beitrag zum Thema künstliche Intelligenz.

Informationsreduktion 8: Unterschiedliche Makrozustände

Zwei Zustände gleichzeitig

Im Vorbeitrag habe ich dargestellt, wie ein System auf zwei Ebenen beschrieben werden kann, auf der Ebene des Mikro- und auf der des Makrozustandes. Auf der Ebene des Mikrozustandes finden sich alle Detailinformationen, auf derjenigen des Makrozustandes finden sich weniger, dafür stabilere Informationen. Das klassische Beispiel ist das Wasserglas, wo der Mikrozustand die Bewegung der einzelnen Wassermoleküle beschreibt, der Makrozustand dafür die Temperatur der Flüssigkeit kennt. In diesem Beitrag möchte ich darauf eingehen, wie unterschiedlich die Beziehung zwischen Mikro- und Makrozustand sein kann.

Hängt der Makrozustand vom Mikrozustand ab?

Der Makrozustand ist informatisch, d.h. bezüglich seines Informationsgehaltes, zwar immer kleiner als der Mikrozustand, doch es stellt sich darüber hinaus die Frage, ob er überhaupt eine eigene Existenz hat. Ist er nicht einfach eine Folge des Mikrozustandes? Wie weit ist der Makrozustand durch den Mikrozustand wirklich determiniert? M.E. gibt es in dieser Hinsicht grosse Unterschiede. Das wird deutlich, wenn wir uns überlegen, wie wir die Zukunft der Systeme vorhersagen können:

Wasserglas

Wenn wir die Bewegungsenergien der vielen einzelnen Moleküle kennen, dann kennen wir auch die Temperatur. Das Wissen über den Mikrozustand erlaubt uns, den Makrozustand zu kennen. Wir wissen in diesem Fall auch, wie er sich weiterentwickelt. Wenn das System geschlossen bleibt, dann bleibt die Temperatur konstant. Der Makrozustand bleibt gleich, während im Mikrozustand jede Menge Informationen umher wuseln. Die Temperatur ändert sich erst, wenn Einflüsse von aussen dazu kommen, insbesondere Energieflüsse. Weshalb bleibt die Temperatur gleich? Der Grund liegt im Energieerhaltungssatz. Die Gesamtenergie des geschlossenen Systems bleibt gleich, somit bleibt auch der Makrozustand gleich, wie auch immer die Variablen im Mikrozustand sich ändern.

Weshalb aber gilt der Energieerhaltungssatz? Es bestehen enge Beziehungen zum Hamilton-Prinzip, dem Prinzip der kleinsten Wirkung. Das Hamilton-Prinzip ist eines der grundlegendsten Regeln in der Natur und gilt keinesfalls nur in der Thermodynamik.

Das geschlossene thermodynamische System ist ein ideales System, das so rein in der Natur kaum vorkommt. Es ist real immer nur eine Annäherung. Diesem abstrakten System möchte ich nun einige in der Natur wirklich vorkommende Systeme gegenüber stellen:

Wasserwellen und Bénard-Zellen

Dieser Typus System lässt sich als Welle auf einer Wasseroberfläche beobachten. In die gleiche Kategorie gehören für mich auch die Bénard-Zellen, über die Prigogine berichtet. In beiden Fällen entstehen die makroskopischen Strukturen als offene Systeme. Wellen und Zellen können nur durch äussere Einwirkungen entstehen, nämlich durch den Temperaturgradienten und die Gravitation bei den Bénard-Zellen und den Wind und die Gravitation bei den Wasserwellen. Die Strukturen entstehen durch das Einwirken dieser äusseren Kräfte, die in ihrem Zusammenspiel die makroskopische Strukturen entstehen lassen, welche interessanterweise über längere Zeit bestehen bleiben. Das Fortbestehen dieser Strukturen erstaunt. Weshalb behält die Welle ihre Form, obwohl immer wieder andere Materieteilchen ihre Grundlage bilden?

Im Unterschied zum isolierten thermischen System sind die in solchen offenen Systemen gebildeten makroskopischen Strukturen wesentlich komplexer. Einander gegenläufige Kräfte von aussen lassen völlig neue Formen – Wellen und Zellen – entstehen. Die äusseren Kräfte sind nötig, damit die Form entstehen und fortdauern kann, aber die entstandene makroskopische Form selber ist neu und nicht bereits in den informatisch (d.h. bezüglich Informationsgehalt) sehr einfachen äusseren Kräften angelegt.

Gleich wie im thermischen System haben wir neben der Makroebene der einfachen äusseren Form (Zelle oder Welle) eine Mikroebene mit den vielen Molekülen, welche z.B. die Form bilden. Und wieder ist die Makroebene, also die Form informatisch wesentlich einfacher als die Mikroebene der vielen Moleküle. Die Welle bleibt in ihrer Form über längere Zeit erhalten, während die vielen Moleküle, die sie bilden, sich wild durcheinander bewegen. Die Welle läuft weiter und erfasst neue Moleküle, welche jetzt die Welle bilden. In jedem Moment erscheint die Form, d.h. das Zusammenkommen des Makrozustandes aus den einzelnen Molekülen vollständig determiniert, aber informatisch viel einfacher erklärbar als durch die vielen Einzelmoleküle ist die Form auf der Makroebene selber, nämlich als einfache Fortsetzung der Welle, einfach mit neuen Molekülen auf der Mikroebene. Es sieht so aus, als wäre der neue Makrozustand am besten erklärbar durch den alten.

Im Gegensatz zu höher entwickelten Formen gilt bei Wasserwellen und Bénard-Zellen: Sobald die Kräfte von aussen nachlassen, verschwindet die Form. Unser Leben ist wie jedes organische aber darauf angewiesen, dass die Formen nicht so schnell verschwinden. Das bedeutet: Der Makrozustand muss gegenüber dem Mikrozustand gestärkt werden.

Der Thermostat

Wir können den Makrozustand stärken, indem wir ihm eine Steuerung beigeben. Denken Sie an eine Heizung mit einem Temperaturfühler. Sobald es kalt wird, wird geheizt, wenn die Temperatur zu hoch wird, hört das Heizen auf. Auf diese Weise wird die Temperatur, d.h. der Makrozustand konstant gehalten. Natürlich ist dieses Heizungssystem thermodynamisch alles andere als geschlossen. Und Temperaturfühler und Steuerung zur Unterstützung und Konstanthaltung des Makrozustandes sind vom Menschen gebaut, entstehen also nicht wie die Wasserwellen auf natürliche Weise. – Oder gibt es so etwas auch in der Natur?

Autopoese und Autopersistenz

Natürlich gibt es solche Steuerungen auch in der Natur. Während meines Medizinstudiums war ich beeindruckt von den vielen und komplexen Steuerungskreisen im menschlichen Organismus. Steuerung hat immer mit Information zu tun. Das Medizinstudium hat mir nahegelegt, Information als wesentlichen Bestandteil der Welt anzusehen.

Man nennt die automatische Entstehung der Welle oder der Bénard-Zelle Autopoese. Welle und Zelle sind aber nicht beständig, die biologischen Organismen jedoch schon, jedenfalls wesentlich beständiger als es die Welle ist. Dies geschieht mit Hilfe von Steuerungen, die Teile des Organismus selber sind. Man muss sich das so vorstellen, als ob eine Welle realisiert, dass sie völlig vom Wind abhängig ist und darauf reagiert, in dem sie die Quelle ihrer Existenz (ihre Nahrung, den Wind) aktiv sucht, bzw. in sich eine Struktur schafft, die seine Energie für die schlechten Zeiten konserviert, wo es nicht weht.

Genau das tut der Körper, jeder biologische Körper. Er ist ein Makrozustand, der sich selber erhalten kann, indem er über Steuerungsvorgänge seinen Mikrozustand kontrolliert und auf die Umwelt reagiert.

Biologische Systeme

Diese Art System unterscheidet sich von isolierten thermischen Systemen durch seine Fähigkeit, Formen entstehen zu lassen und von einfachen, zufällig entstehenden natürlichen Formen wie einer Wasserwelle durch seine Möglichkeit, die Form aktiv überleben zu lassen. Dies ist möglich, da solche biologischen Systeme auf die Umgebung mit dem Ziel reagieren können, ihr Überlebens zu sichern. Von den einfacheren autopoietischen Systemen unterscheidet sich ein biologisches System durch eine länger andauernde Formkonstanz dank komplexen inneren Steuerungen und eine gezielte Aktivität gegenüber der Umgebung.

Damit die Formkonstanz möglich ist, braucht es ein wie immer geartetes Gedächtnis, das das Muster bewahrt. Und um auf die Umgebung gezielt zu reagieren, hilft eine wie immer geartete Vorstellung über diese Aussenwelt. Beides, das Gedächtnis für das eigene Muster und die wie auch immer vereinfachte Vorstellung über die Aussenwelt müssen im biologischen System informatisch fixiert sein, sonst kann die Formkonstanz nicht erhalten werden. Das biologische System hat somit einen wie immer gearteten informatischen Innenraum.

Biologische Systeme sind wegen den oben beschriebenen Eigenschaften immer interpretierende Systeme.


Dies ist ein Beitrag aus der Serie Informationsreduktion.

Logodynamik

Wozu dient Logik?

Geht es bei Logik ums Denken? Das dachte ich jedenfalls früher. Logik sei quasi die «Lehre vom Denken» oder gar die «Lehre vom richtigen Denken». Beim näheren Blick aber zeigt sich, dass es bei dem, was als Logik bezeichnet und studiert wird, nicht ums Denken, sondern ums Beweisen geht. Die klassische Logik ist in der Tat eine Wissenschaft des Beweisens.

Denken ist aber weit mehr als Beweisen. Man muss die Beweise erst finden. Dann muss man die Beweise im Kontext bewerten. Der Kontext kann ändern. Was mache ich mit Widersprüchen? Meines Erachtens sollte Logik untersuchen, wie wir uns ganz allgemein den Fragen des richtigen Denkens stellen und mehr sein als nur eine Wissenschaft des Beweisens. Wie aber gelangen wir zu einer solchen erweiterten Logik?

Der entscheidende Schritt war für mich die Erkenntnis, dass es eine statische und eine dynamische Logik gibt. Erst wenn wir wagen, den sicheren Garten der statischen Logik zu verlassen, können wir anfangen, das wirkliche Denken zu untersuchen.

Klassische Logik = Logostatik

Die klassische Logik prägte das abendländische Geistesleben über zwei Jahrtausende lang – angefangen bei den Syllogismen des Aristoteles über die Scholastik des Mittelalters mit den Lehren des Thomas von Aquin bis hin zur heute noch aktuellen Prädikatenlogik ersten Grades (FOL = First Order Logic) der Mathematiker. Diese Logiken sind genuin statisch. Bei ihnen hat jede Aussage einen allgemein gültigen, absoluten Wahrheitswert; die Aussage ist entweder wahr oder falsch – und das darf sich nicht ändern. Mit anderen Worten: Das logische Gebäude ist statisch. Die Mathematiker nennen eine solche Logik monoton.

Logodynamik

Während Widersprüche in einem klassischen logischen System nicht geduldet werden können, bilden sie in einem dynamischen System entscheidende Elemente im Netzwerk der Aussagen. Genauso wie sie es in unserem Denken tun. Widersprüche sind nämlich nichts anderes als Ausgangspunkte für unser Denken. Schliesslich zwingen uns Widersprüche, z.B. Beobachtungen die nicht zueinander passen, die Dinge genauer anzusehen. Wenn Aussagen einander widersprechen, wollen wir darüber nachdenken, was gilt. Widersprüche, in klassischer Logik verboten, sind in dynamischer Logik der eigentliche Ausgangspunkt des Denkens. Genauso wie in der Physik eine elektrische Spannung z.B. die Energie für den Strom liefert, so bildet für die Logik ein Widerspruch die Spannung, um weiter zu denken.

Weiterdenken heisst aber auch immer, offen zu sein für ganz neue Aussagen. Auch darin unterscheidet sich Logodynamik von klassischer Logik. Letztere definiert zuerst ihre «Welt», das heisst alle Elemente, die später, bzw. überhaupt verwendet werden dürfen. Das System muss geschlossen sein. Die klassische Logik verlangt eine klare Grenzziehung um die Welt eines Aussagensystems, und zwar bevor Schlüsse gezogen (gedacht) werden kann. Unser Denken ist aber keinesfalls geschlossen. Wir können immer neue Objekte einbeziehen, neue Differenzierungen für bekannte Objekte austesten, neue Gründe finden, Gründe neu bewerten usw. Mit anderen Worten: Wir lernen. Deshalb muss ein Logiksystem, das sich der Art, wie Menschen denken annähert, prinzipiell offen sein.

In einem klassischen logischen System gibt es keine Zeit. Alles was gilt, gilt immer. In einem logodynamischen System ist das prinzipiell anders. Was heute als wahr angesehen wird, kann morgen als Irrtum erkannt werden. Ohne diese Möglichkeit gibt es kein Lernen. Das logodynamische System erkennt die Zeit als notwendiges und internes Element an. Das greift ganz tief in den logischen Mechanismus ein, quasi in den «Grundschalter» der Logik, nämlich in das IF-THEN. Das IF-THEN der dynamischen Logik hat nämlich prinzipiell (immer) einen Zeitbezug: Das IF ist stets vor dem THEN.

Ein statisches System könnte die Zeit höchstens als Objekt seiner Betrachtung erkennen, quasi als eine seiner Variablen, nicht aber als etwas, was mit seinem eigenen Funktionieren zu tun hat.

Somit unterscheidet sich ein logodynamisches von einem logostatischen System durch folgende drei Eigenschaften:

  1. Non-Monotonie: Widersprüche im System sind erlaubt.
  2. Offenheit: Jederzeit können neue Elemente im System auftauchen.
  3. Systeminterne Zeit: Zwischen IF und THEN vergeht Zeit.

Erst eine dynamische Logik erlaubt es, Denk- und Informationsprozesse in einen realen Rahmen zu sehen. Mehr zum Thema Logik -> Übersichtsseite Logik


 

Informationsreduktion 7: Mikro- und Makrozustand

Beispiele von Informationsreduktion

In den bisherigen Texten haben wir Beispiele von Informationsreduktion in folgenden Gebieten angesehen:

  • Kodierung / Klassifizierung
  • Sinneswahrnehmung
  • Fallpauschalen
  • Meinungsbildung
  • Wärmelehre

Was ist gemeinsam?

Mikro- und Makrozustand

Allen diesen Beispielen ist gemeinsam, dass wir bezüglich Informationen zwei Zustände haben, einen Mikrozustand mit vielen Details und einen Makrozustand mit wesentlich weniger Information. Sehr anschaulich und den meisten noch aus der Schule bekannt, ist das Verhältnis der beiden Ebenen in der Wärmelehre.

Beide Zustände existieren gleichzeitig. Sie betreffen weniger das betrachtete Objekt, als vielmehr die Sichtweise des Betrachters. Will er viel wissen? Oder weniger? Oder gar nur die Essenz, beziehungsweise das, was für ihn die Essenz darstellt? Je nach dem richtet sich sein Blick mehr auf die vielen Details des Mikrozustandes oder die einfache Information des Makrozustandes.

Mikro- und Makrozustand in der Informationstheorie

Die Bedeutung von Mikro- und Makrozustand wurde zuerst in der Wärmelehre erkannt. Meines Erachtens handelt es sich aber um ein ganz allgemeines Phänomen, das eng mit dem Prozess der Informationsreduktion verknüpft ist. Insbesondere bei der Untersuchung von Informationsverarbeitung in komplexen Situationen ist es hilfreich, die beiden Zustände zu unterscheiden.
Überall dort, wo die Informationsmenge reduziert wird, kann ein Mikro- und ein Makrozustand unterschieden werden. Dabei ist der Mikrozustand derjenige, der mehr Information enthält, beim Makrozustand ist die Informationsmenge reduziert.

Der detailreichere Mikrozustand gilt als «realer»

Je mehr Details wir sehen, umso besser glauben wir eine Sache zu erkennen. Deshalb sehen wir den detailreichen Mikrozustand als die eigentliche Realität an. Der Makrozustand ist dann entweder eine Interpretation oder eine Konsequenz des Mikrozustandes.

… aber der informationsarme Makrozustand interessiert mehr

Bemerkenswerterweise sind wir am informationsarmen Zustand aber mehr interessiert als am Mikrozustand. Die vielen Details des Mikrozustandes sind uns zu viele. Entweder sind sie uninteressant (Wärmelehre, Sinneswahrnehmung) oder sie verhindern die gewünschte klare Sicht auf das Ziel, für das der Makrozustandes steht (Kodierung, Klassifizierung, Meinungsbildung, Fallpauschalen).

Seltsamer Antagonismus

Es besteht somit ein seltsamer Antagonismus zwischen den beiden Zuständen: Während wir den einen als realer ansehen, sehen wir den anderen als für uns relevanter an. So als stünden real und relevant im Gegensatz zueinander. Je realer, d.h. detailreicher die Sichtweise wird, umso irrelevanter erscheint die einzelne Information, und je intensiver die Sichtweise sich um Relevanz bemüht, umso mehr löst sie sich von der Realität. Dieses paradoxe Verhältnis von Mikro- zu Makrozustand ist charakteristisch für alle Verhältnisse von Informationsreduktion und zeigt die Bedeutung aber auch die Herausforderung, die solche Prozesse an sich haben.

Gibt es Unterschiede zwischen den informationsreduzierenden Prozessen?

Auf jeden Fall. Gemeinsam ist ihnen nur, dass eine Darstellung auf einer detailreichen Mikro- und informationsarmen Makroebene möglich ist und die Makroebene meist relevanter ist.

Solche Prozesse beinhalten immer eine Informationsreduktion, aber die Art, wie reduziert wird, unterscheidet sich. Es ist nun äusserst erhellend, die Unterschiede genauer zu untersuchen. Die Unterschiede spielen nämlich entscheidend in viele Belange hinein. Mehr dazu im Fortsetzungsbeitrag.


Dies ist ein Beitrag zu einer Serie über Informationsreduktion. Der vorhergehende Beitrag beschäftigte sich mit Informationsreduktion in der Wärmelehre.


 

Informationsreduktion 6: Das Wasserglas, revisited

Ist das Physik?

In meinem Beitrag Informationsreduktion 5: Das klassische Wasserglas habe ich als Beispiel für die Informationsreduktion das Wasserglas erwähnt. Dort reduziert sich die komplexe und detailreiche Information über die Bewegungsenergie der Wassermoleküle (Mikroebene) zur simplen Information über die Temperatur des Wassers.

Ein Physiker könnte dieses Beispiel natürlich kritisieren. Zu Recht, denn das Wasserglas ist viel komplizierter. Die Berechnungen von Boltzmann gelten nur für das ideale Gas, also für ein Gas, dessen Moleküle keine Interaktionen untereinander haben, ausser den Stössen, die sie untereinander erfahren und dabei ihre individuellen Bewegungsinformationen untereinander austauschen.

Ein ideales Gas

Ein solches Gas existiert auf der Erde nicht, es handelt sich um eine Idealisierung. Zwischen den einzelnen Molekülen existieren nämlich noch ganz andere Kräfte als die rein mechanischen. Im Wasserglas sowieso. Denn Wasser ist kein Gas, sondern eine Flüssigkeit, und weil zwischen Molekülen in Flüssigkeiten viel stärkere Bindungen existieren als zwischen Gasmolekülen, komplizieren diese zusätzlichen Bindungen das Bild.

Wasser

Beim Wasser ist es darüber hinaus nochmals besonders. Denn das Wassermolekül (H2O) ist ein starker Dipol, d.h. dass es einen starken elektrischen Ladungsunterschied zwischen seinen beiden Polen aufweist, dem negativ geladenen Pol mit dem Sauerstoffatom (O) und dem positiv geladenen Pol mit den beiden Wasserstoffatomen (H2). Diese starke Polarität führt dazu, dass sich mehrere Wassermoleküle aneinander lagern. Wenn solche Zusammenballungen auf Dauer bestehen würden, wäre das Wasser keine Flüssigkeit, sondern ein fester Stoff (wie Eis). Da die Zusammenballungen aber nur temporär sind, ist das Wasser eine Flüssigkeit, allerdings eine besondere, die sich ganz speziell verhält. Siehe dazu z.B. die aktuelle Forschung von Gerald Pollack.

Physik und Informationswissenschaft

Ein Physiker hätte das Wasserglas also wohl kaum als Beispiel gewählt. Ich möchte es allerdings nicht ändern. Um das Verhältnis zwischen der Information auf dem Mikro- und dem Makrozustand zu erklären, eignet sich das Wasserglas genauso gut. Boltzmanns Berechnungen stimmen zwar nur noch ungefähr, aber seine These bleibt: Die Temperatur eines Gegenstands ist auf der Makroebene die Information, die die vielen Informationen über die chaotischen Bewegungen der einzelnen Moleküle der Mikroebene quasi zusammenfasst.

Für einen Physiker ist das Wasserglas ein schlechtes Beispiel. Für einen Informationsphilosophen macht es aber keinen Unterschied. Ob ideales Gas oder Wasserglas, immer besteht ein Informationsgefälle zwischen dem Makrozustand und dem Mikrozustand. Darauf kommt es an. Im Wasserglas enthält der Mikrozustand Milliarden mal mehr Informationen als der Makrozustand. Und obwohl der Mikrozustand informationsmächtiger ist, interessiert uns der Makrozustand interessanterweise mehr.

Wie verläuft der Übergang?

Wie verläuft nun der Übergang vom Mikro- zum Makrozustand in den verschiedenen Fällen?  Offensichtlich verläuft er im Wasserglas wegen den speziellen Eigenschaften des H2O – Moleküls etwas anders als beim idealen Gas. Und in unseren weiteren, völlig unphysikalischen Beispielen Klassifizierung, Begriffsbildung und Framing verläuft dieser Übergang vom Mikro- zum Makrozustand nochmals völlig anders, und auf diese Besonderheiten sollten wir jetzt eingehen. Siehe dazu den Fortsetzungsbeitrag.


Zum Thema Informationsreduktion finden Sie hier die Übersichtsseite.


 

Informationsreduktion 5: Das klassische Wasserglas

Informationsreduktion in der Wärmelehre

In der Wärmelehre findet sich ein ganz besonderes Beispiel für die Informationsreduktion. Das Beispiel ist deshalb besonders, weil es so einfach ist. Es zeigt das Grundgerüst der Informationsreduktion in aller Deutlichkeit, ohne die Komplexität anderer Beispiele, z.B. solchen aus der Biologie. Es ist vielen von uns auch aus dem Physikunterricht bereits bestens bekannt.

Was ist Temperatur?

Ein Wasserglas enthält viele Wassermoleküle, die sich mit unterschiedlichen Geschwindigkeiten in unterschiedlichen Richtungen bewegen, dabei immer wieder mit anderen Wassermolekülen zusammenstossen und bei jedem Stoss Geschwindigkeit und Bewegungsrichtung ändern. Mit anderen Worten: Das Wasserglas ist der typische Fall eines realen Objektes, das eine von aussen unüberblickbare Informationsmenge enthält.

Das ist die Darstellungsweise mit den Wassermolekülen. Was ist nun die Temperatur der Flüssigkeit im Wasserglas?

Wie Ludwig Boltzmann erkannte, ist die Temperatur nichts anderes als die Folge der Bewegungen der vielen einzelnen Einzelmoleküle in einem Gasbehälter oder einem Wasserglas. Je schneller sie sich bewegen, umso mehr Energie haben sie und umso höher wird die Temperatur.

Wie er zeigte, lässt sich die Temperatur statistisch eindeutig aus den Bewegungsenergien der vielen Moleküle berechnen. Milliarden von Molekülen mit ihren dauernden Bewegungsänderungen ergeben genau eine Temperatur. Aus vielen Informationen wird eine.

Die Mikroebene und die Makroebene

Bemerkenswerterweise kann auf der Ebene der einzelnen Moleküle nicht von Temperatur gesprochen werden. Dort findet sich nur die Bewegung der vielen einzelnen Moleküle, die sich bei jedem Stoss ändert, abrupt und z.T. massiv. Die Bewegungsenergie der Moleküle ist abhängig von ihrer Geschwindigkeit und ändert sich entsprechend bei jedem Stoss mit.

Obwohl sich auf der Mikroebene der Wassermoleküle die Bewegungen dauernd ändern, bleibt auf der Makroebene des Wasserglases die Temperatur vergleichsweise konstant. Und für den Fall, dass sich die Temperatur ändert, weil z.B. Wärme vom Wasser an die Wände des Glases abgegeben wird, gibt es Formeln, die die Bewegung der Wärme und somit die Temperaturänderung berechnen lassen. Diese Formeln bleiben auf der Makroebene, d.h. sie kommen ganz ohne den Einbezug der vielen und komplizierten Stösse und Bewegungen der Wassermoleküle aus.

Man kann den Temperaturverlauf somit vollständig auf der Makroebene beschreiben und berechnen, ohne die Details der Mikroebene mit den vielen Wassermolekülen kennen zu müssen. Obwohl die Temperatur (Makroebene) vollständig und ausschliesslich durch die Bewegung der Moleküle (Mikroebene) definiert wird, ist die Kenntnis der Detailinformationen für ihre Voraussage (Temperaturverlauf auf der Makroebene) gar nicht nötig. Die Details der Mikroebene scheinen auf der Makroebene zu verschwinden. Wir haben einen typischen Fall von Informationsreduktion.


Im Fortsetzungsbetrag wird das Bild vom Wasserglas präzisiert. Anschliessend schauen wir das Verhältnis von Mikro- und Makrozustand genauer an.


Zum Thema Informationsreduktion finden Sie hier die Übersichtsseite.


 

Informationsreduktion 4: Framing

Framing macht den Unterschied

Aktuell wird der Framing-Effekt häufig erwähnt. Es geht bei dem Effekt darum, dass die gleiche Botschaft ganz unterschiedlich wahrgenommen wird, je nachdem, welche Zusatzinformationen mit der Botschaft mitgesendet werden. Diese zusätzlichen Informationen dienen dazu, der Botschaft den passenden Rahmen (Frame) zu geben, sodass die Empfänger der Botschaft entsprechend reagieren.

Auch wenn die eigentliche Botschaft neutral gesehen die gleiche wäre und die Zusatzinformationen der Wahrheit entsprechen, kann der Empfänger mit Framing gehörig manipuliert werden – nur schon durch die Auswahl der (an sich korrekten) Details. Framing wird selbstverständlich in der Werbung verwendet, ganz besonders aktuell und heikel ist aber das Verwenden von Framing in der politischen Berichterstattung.

Natürlich gehört zum Framing in Politik und Werbung immer die Wortwahl, die einen Fact mit den entsprechenden emotionalen Inhalten verbindet. Doch schon die simple Tatsache, welche Aspekte (Details) des Geschehens in den Vordergrund gerückt werden und welche in den Hintergrund, verändert das Bild, das sich der Empfänger von der Botschaft macht. Bei der Rezeption der Tatsache, dass viele Flüchtlinge/Migranten nach Europa wollen, kommt es zum Beispiel darauf an, welche der vielen Menschen man im Blick hat und auf welche der vielen Aspekte, Gründe, Umstände und Folgen ihrer Reise man das Hauptgewicht legt. Berichte über kriminelle Aktivitäten einzelner Migranten lassen in uns ein ganz anderes Bild entstehen als Schilderungen der unmenschlichen, unfassbar schrecklichen Bedingungen der Reise. Die Tatsache, dass Menschen kommen, ist ein Fact. Wie man aber den Fact bewertet, d.h. seine Interpretation, ist eine Sache der Vereinfachung, d.h. der Fact-Auswahl. Damit sind wir ganz klar beim Phänomen der Informationsreduktion angekommen.

Framing und Informationsreduktion

Die Realität enthält immer viel mehr Detailinformationen als wir verarbeiten können. Und weil wir deshalb immer eine Vereinfachung durchführen müssen, spielt die Auswahl der Information eine entscheidende Rolle: Was wird in den Vordergrund gerückt wird und was in den Hintergrund? Je nachdem verändert sich unsere Wahrnehmung und in der Folge auch unser Urteil. Dieses Phänomen der Informationsreduktion ist das gleiche wie bei der medizinischen Kodierung, wo auch die unterschiedlichsten Merkmale zur Kodezuweisung verwendet werden – oder eben nicht –  (siehe Beitrag Zwei Arten von Codierung-1). Die Reduktion und Selektion der Information findet ganz prinzipiell bei allen Wahrnehmungsprozessen statt. Wir müssen (um zu urteilen und zu handeln) stets vereinfachen. Die Selektion der Details macht unsere Wahrnehmung aus, und die Selektion ist nicht vom betrachteten Objekt abhängig, sondern vom Subjekt, das die Auswahl durchführt.

Verschiedene Interpretationen sind möglich (siehe früheren Beitrag)

Die Realität (oben im Diagramm) enthält alle Fakten, unsere Interpretation der Realität ist aber immer eine Auswahl aus den vielen Details der Fakten, und wir können dadurch zu unterschiedlichen Ansichten gelangen. Ich glaube, dass dieses Phänomen der Informationsreduktion (das Interpretationsphänomen) etwas Grundlegendes und Unausweichliches ist, und dass es an den unterschiedlichsten Orten eine wichtige Rolle spielt. Der Framing-Effekt ist nur eines, aber ein typisches Beispiel dafür.


Links zum Framing:
Spiegelbeitrag «Ab jetzt wird zurückgeframt» vom 22.2.2019
Wikipedia zum Framing-Effekt
Interview mit Kommunikationstrainer Benedikt Held


Die Phänomene Informationsreduktion und Selektion hängen eng zusammen. Damit beschäftigt sich der Vorbeitrag dieser Serie.

In der Fortsetzung dieser Serie geht es um Informationsreduktion in der Physik.


Zum Thema Informationsreduktion finden Sie hier die Übersichtsseite.


 

IF-THEN / statisch oder dynamisch?

Zwei Typen von IF-THEN

Viele glauben, dass das IF-THEN in der Logik eine klare Sache sei. Meiner Ansicht nach wird dabei aber oft übersehen, dass es vom IF-THEN zwei verschiedene Typen gibt. Der Unterschied zwischen den beiden besteht darin, ob das IF-THEN eine interne zeitliche Komponente besitzt oder nicht.

Dynamisches (reales) IF-THEN

Für viele von uns ist das IF-THEN dynamisch, d.h. es besitzt eine spürbare zeitliche Komponente. Bevor wir zum Schluss, d.h. zum THEN gelangen, schauen wir das IF genau an, d.h. die Bedingung, die anschliessend den Schluss erlaubt. Mit anderen Worten: Die Bedingung wird ZUERST angesehen, DANN kommt der Schluss

Das ist nicht nur im menschlichen Denken, sondern auch bei Computerprogrammen so. Computer erlauben die Kontrolle von ausgedehnten und komplexen Bedingungen (IFs). Diese müssen durch den Prozessor des Rechners im Memory abgelesen werden. Vielleicht müssen noch kleinere Berechnungen durchgeführt werden, die in den IF-Statements enthalten sind, und die Resultate der Berechnungen müssen dann mit den verlangten IF-Bedingungen verglichen werden. Natürlich brauchen die Abfragen Zeit. Auch wenn der Computer sehr schnell ist, und die Zeit, die für die Kontrolle des IFs benötigt wird, minimal ist, ist sie trotzdem messbar. Erst NACH der Kontrolle, kann der in der Computersprache formulierte Schluss, das THEN, ausgeführt werden.

Im menschlichen Denken, wie auch bei der Ausführung eines Computerprogramms, sind also das IF und das THEN zeitlich eindeutig getrennt. Das wird Sie nicht erstaunen, denn beides, der Ablauf des Computerprogramms wie das menschliche Denken sind reale Vorgänge, sie laufen in der realen, physischen Welt ab, und in dieser benötigen alle Prozesse Zeit.

Statisches (ideales) IF-THEN

Etwas mehr erstaunen wird Sie vielleicht, dass in der klassischen mathematischen Logik, das IF-THEN keine Zeit braucht. Das IF und das THEN bestehen simultan. Wenn das IF wahr ist, ist automatisch und sofort das THEN wahr. Eigentlich ist es sogar falsch, von vorher und nachher zu sprechen, da Aussagen in der klassischen mathematischen Logik immer ausserhalb der Zeit stehen. Wenn eine Aussage wahr ist, ist sie immer wahr, wenn sie falsch ist, ist sie immer falsch (=Monotonie, siehe vorhergehende Beiträge).

Das mathematische IF-THEN wird oft mit Venn-Diagrammen (Mengen-Diagrammen) erläutert. In diesen Visualisierungen ist das IF z.B. durch eine Menge repräsentiert, die eine Teilmenge der Menge des THEN ist. Es handelt sich für die Mathematiker beim IF-THEN um eine Relation, die vollständig aus der Mengenlehre abgeleitet werden kann. Dabei geht es um (unveränderbare) Zustände von Wahr oder Falsch, und nicht um Prozesse, wie beim Denken in einem menschlichen Hirn oder beim Ablauf eines Computerprogramms.

Wir können also unterscheiden
  • Statisches IF-THEN:
    In Idealsituationen, d.h. in der Mathematik und in der klassischen mathematischen Logik.
  • Dynamisches IF-THEN:
    In Realsituation, d.h. in real ablaufenden Computerprogrammen und im menschlichen Hirn.
Dynamische Logik verwendet das dynamische IF-THEN

Wenn wir eine Logik suchen, die der menschlichen Denksituation entspricht, dann dürfen wir uns nicht auf das ideale, d.h. das statische IF-THEN beschränken. Das dynamische IF-THEN entspricht dem normalen Denkvorgang besser. Die dynamische Logik, für die ich plädiere, respektiert die Zeit und braucht das natürliche, d.h. das dynamische, das reale IF-THEN.

Wenn Zeit eine Rolle spielt, und nach dem ersten Schluss die Welt anders aussehen kann als vorher, kommt es darauf an, welcher Schluss zuerst gezogen wird. Man kann nicht beide gleichzeitig ziehen – ausser man lässt zwei gleichzeitig ablaufende Prozesse zu. Die beiden parallel laufenden Prozesse können sich aber gegenseitig beeinflussen, was die Sache natürlich auch nicht einfacher macht. Die dynamische Logik ist aus diesem und vielen anderen Gründen wesentlich komplexer als die statische. Umso nötiger brauchen wir, um die Sache in den Griff zu bekommen, einen klaren Formalismus.

Statisches und dynamisches IF-THEN nebeneinander

Die beiden Arten des IF-THENs widersprechen sich nicht, sondern ergänzen sich und können durchaus koexistieren. So beschreibt das klassische, statische IF-THEN logische Zustände, die in sich geschlossen sind, und das dynamische beschreibt logische Vorgänge, die von einem logischen Zustand zum anderen führen.

Dieses Zusammenspiel von Statik und Dynamik ist vergleichbar mit dem Zusammenspiel von Statik und Dynamik in der Physik, z.B. mit der Statik und Dynamik in der Mechanik oder der Elektrostatik und der Elektrodynamik in der Elektrizitätslehre. Auch dort beschreibt der jeweils statische Teil die Zustände (ohne Zeit) und der dynamische die Änderung der Zustände (mit Zeit).


Dies ist ein Beitrag zur dynamischen Logik. Er wird fortgesetzt mit der Frage, was passiert, wenn zwei dynamische IF-THENs miteinander konkurrieren.


Erst eine dynamische Logik erlaubt es, Denk- und Informationsprozesse in einen realen Rahmen zu sehen. Mehr zum Thema Logik -> Übersichtsseite Logik


 

Informationsreduktion 3: Information ist Selektion

Informationsreduktion ist überall

Im vorhergehenden Beitrag habe ich beschrieben, wie bei der Kodierung medizinischer Sachverhalte – einem Vorgang, der von der Realität bis zu den Fallpauschalen (DRGs) führt – eine in der Tat drastische Reduktion der Informationsmenge stattfindet:

Informationsreduktion
Informationsreduktion

Diese Informationsreduktion ist nun keinesfalls auf die Information in der Medizin und ihre Kodierung beschränkt, sondern ist ein ganz allgemeines Phänomen. Immer wenn wir wahrnehmen, führen schon die Sinnesorgane, z.B. die Retina, eine Reduktion der Informationsmenge durch, im Hirn werden die Daten weiter vereinfacht, und im Bewusstsein kommt nur die für uns wichtige Essenz der Eindrücke an.

Informationsreduktion ist nötig

Wenn man die Frage stellt, wollen Sie viel wissen oder wenig, werden die meisten antworten, dass sie möglichst alles wissen möchten. Zum Glück wird ihr Wunsch nicht erfüllt. Bekannt ist das Beispiel des «Savants», der nach einem Flug über eine Stadt jedes einzelne Haus korrekt aus dem Gedächtnis zeichnen konnte. Der gleiche Mensch war aber unfähig, sich im Alltag allein zu bewegen. Die Informationsflut hindert ihn daran. Wir wollen keinesfalls alle Details wissen.

Informationsreduktion bedeutet Selektion

Wenn wir gezwungener- und vernünftigerweise Daten verlieren, dann stellt sich sofort die Frage, welche wir verlieren und welche wir behalten. Manche Leute stellen sich vor, dass die Auswahl naturgegeben sei, und dass im betrachteten Objekt begründet liegt, welche Daten wichtig sind und welche nicht. Diese Annahme ist m. E. schlicht falsch. Es ist der Betrachter, der entscheidet, welche Informationen für ihn wichtig sind und welche er vernachlässigen kann. Es hängt von seinen Zielen ab, welche Informationen er behalten will.

Natürlich kann der Betrachter aus dem Objekt nicht Informationen herausholen, die nicht drin stecken. Doch welche Informationen für ihn wichtig sind, entscheidet er selber – oder das System, dem er sich verpflichtet fühlt.

Ganz sicher ist das in der Medizin so. Wichtig sind diejenigen Informationen über den Patienten, die dem Arzt erlauben, eine sinnvolle Diagnose zu stellen – und das System der Diagnosen hängt wesentlich davon ab, was und wie therapiert werden kann. Der medizinische Fortschritt führt dann dazu, dass immer wieder andere Aspekte und Daten eine Rolle spielen.

Mit anderen Worten: Wir können nicht alles wissen, und wir müssen die Menge der erhältlichen Informationen aktiv verkleinern, um zu urteilen und zu handeln. Die Informationsreduktion ist unumgänglich und sie bedeutet immer eine Selektion.

Unterschiedliche Selektionen sind möglich

Welche Information geht verloren, welche bleibt erhalten? Die Antwort auf diese Frage entscheidet, wie unser Bild des betrachteten Objektes aussieht.

Interpretation der Realität
Verschiedene Informations-Selektionen (Interpretationen) sind möglich

Weil der Betrachter – bzw. das ihn prägende System – entscheidet, welche Information behalten wird, sind verschiedene Selektionen möglich. Je nachdem, welche Merkmale wir in den Vordergrund stellen, werden unterschiedliche Individualfälle in die gleiche Gruppe oder Schublade gezählt und unterschiedliche Betrachter gelangen so zu unterschiedlichen Interpretationen derselben Realität.


Diese Serie wird fortgesetzt mit einem ein konkreten Beispiel von Selektion, dem Framing.


Zum Thema Informationsreduktion finden Sie hier die Übersichtsseite.


 

Non-Monotonic Reasoning (NMR)

Begriffsmoleküle und NMR

Im Beitrag Zwei Arten von Codierung 1 habe ich die Aufgabe beschrieben, Computer die beeindruckende Vielfalt der medizinischen Diagnosen «verstehen» zu lassen. Dazu war es  nötig, die unterschiedlichen Diagnoseformulierungen beim Lesen durch den Computer in eine einheitliche Form zu überführen, welche alle semantischen Details in leicht abrufbarer Form repräsentiert.

Mit den Begriffsmolekülen ist uns das erfolgreich gelungen. Dabei halfen uns zwei Eigenschaften der Methode der Begriffsmoleküle, nämlich a) die konsequent komposite Repräsentation der Semantik, sowie b) ein Reasoner auf nicht-monotoner Basis. Die Verwendung eines nicht-monotonen Reasoners war damals überhaupt nicht im Trend. Die meisten Forschungsgruppen im Bereich der medizinischen Computerlinguistik waren gerade dabei, von der First-Order-Logic (FOL) auf Description Logic (DL) umzusteigen und glaubten, dass komplexe Semantiken am besten mit Hilfe von DL durch einen Computer interpretiert werden. In der Praxis allerdings zeigte sich, dass wir als kleine private Forschungsfirma ohne staatliche Unterstützung die erfolgreicheren waren. Wir setzten auf eine nicht-monotone Methode, während die anerkannte Lehrmeinung mit FOL und DL auf eine monotone Methode setzte.

Was ist monotone Logik?

Monotonie bedeutet in der Logik, dass durch Schlüsse gewonnene Aussagen ihren Wahrheitsgehalt nicht ändern, auch wenn neue Aussagen dazu kommen, die ihnen widersprechen. Was also im System als wahr erkannt wurde, bleibt wahr, was als falsch erkannt wurde, bleibt falsch. Nicht-Monotonie bedeutet umgekehrt, dass durch das System gezogene Schlüsse auch wieder in Frage gestellt werden können.

Was ist das Problem bei der Nicht-Monotonie?

Man muss sich im Klaren sein, dass Beweise nur in einem monotonen System möglich sind. In einem nicht-monotonen weiss man nie, ob nicht irgendwoher ein Argument kommt, das zu ganz anderen Schlüssen führt. Da Beweise z.B. in der Mathematik essentiell sind, ist es einleuchtend, dass die mathematische Logik ganz klar auf Monotonie setzt. 

Natürlich geht es bei der Computerlinguistik nicht um Beweise, sondern um korrekte Zuordnungen von Wörtern zu Begriffen. Der Vorteil, Beweise führen zu können, so wichtig er für die Mathematik ist, spielt für unsere Aufgabe keine Rolle.

Was ist das Problem bei der Monotonie?

Ein System, das seine Aussagen nicht verändern kann, ist nicht in der Lage, wirklich zu lernen. So funktioniert z.B. das menschliche Hirn mit Sicherheit nicht-monoton.

Ein monotones System muss auch geschlossen sein. In der Praxis sind wissenschaftliche Ontologien natürlich nicht geschlossen, sondern wachsen mit dem Erkenntnisfortschritt. Das gleiche Fortschreiten zeigt sich bei der Entwicklung eines Interpretationsprogramms. Auch hier gibt es eine kontinuierliche Verbesserung und Erweiterung, was monotone Systeme vor Probleme stellt.

Monotone Systeme können zudem mit Ausnahmen nicht so einfach umgehen. Jede Regel hat bekanntlich Ausnahmen und ein nicht-monotones System kann damit wesentlich gezielter und einfacher umgehen.

Nicht-Monotonie in der Praxis

Wenn man regelbasierte Systeme vergleicht, sind m.E. für unsere Aufgaben nicht-monotone den monotonen eindeutig vorzuziehen. Zwar ist die Nicht-Monotonie kein leichtes Pflaster und weist einige Fallen und Knacknüsse auf, doch die einfache Modellierbarkeit auch von detailreichen und komplexen Gebieten spricht für das nicht-monotone Reasoning.


Nicht-Monotonie ist eine Eigenschaft von dynamischen Logiken. Mehr zum Thema Logik -> Übersichtsseite Logik