Regelbasierte KI: Wo steckt die Intelligenz?

Zwei KI-Varianten: regelbasiert und korpusbasiert

Die in den Vorbeiträgen erwähnten beiden KI-Varianten sind auch heute noch aktuell, und beide haben bemerkenswerte Erfolge zu verbuchen. Sie unterscheiden sich nicht zuletzt darin, wo genau bei ihnen die Intelligenz sitzt. Schauen wir zuerst das regelbasierte System an:

Aufbau eines regelbasierten Systems

Bei der Firma Semfinder verwendeten wir ein regelbasiertes System. Ich zeichnete 1999 dafür folgende Skizze:

Grün: Daten
Braun: Software
Hellblau: Knowledge Ware
Dunkelblau: Knowledge Engineer

Die Skizze besteht aus zwei Rechtecken, die zwei verschiedene Orte bezeichnen. Das Rechteck links unten zeigt, was im Krankenhaus geschieht, das Rechteck rechts oben, was zusätzlich im Knowledge Engineering abläuft.

Im Krankenhaus liest unser Kodierprogramm die Freitexte der Ärzte, interpretiert sie  zu Begriffsmolekülen und weist diesen mit Hilfe einer Wissensbasis die entsprechenden Kodes zu. Die Wissensbasis enthält die Regeln, mit denen die Texte interpretiert werden. Diese Regeln werden bei uns in der Entwicklerfirma von Menschen (Human Experts) erstellt. Die Regeln sind vergleichbar mit den Algorithmen eines Software-Programms, nur dass sie in einer «höheren» Programmiersprache geschrieben sind, sodass auch Nicht-Informatiker, nämlich die Domain-Experten, die in unserem Fall Ärzte sind, sie einfach bauen und sicher warten können. Dazu verwenden sie den Wissensbasis-Editor, eine weitere Software, welche es erlaubt, die Regeln zu sichten, zu testen, zu modifizieren oder auch ganz neu zu bauen.

Wo sitzt nun die Intelligenz?

Sie steckt in der Wissensbasis. Aber es handelt sich nicht um wirkliche Intelligenz. Die Wissensbasis kann nicht selbstständig denken, sie führt nur aus, was ein Mensch ihr vorgegeben hat. Ich habe deshalb unser System nie als ein intelligentes bezeichnet. Intelligenz bedeutet im mindesten, dass man neue Dinge lernen kann. Die Wissensbasis lernt aber nichts. Wenn ein neues Wort auftaucht oder ein neuer Aspekt der Kodierung eingebaut wird, dann macht dies nicht die Wissensbasis, sondern der Knowledge Engineerjj, also der Mensch. Der Rest (Hardware, Software, Wissensbasis) führt nur aus, was der Mensch vorgibt. Die Intelligenz in unserem System war immer und ausschliesslich Sache der Menschen – also eine natürliche und keine künstliche.


Ist das bei der korpusbasierten Methode anders? Im Folgebeitrag schauen wir dazu ein solches korpusbasiertes System genauer an.

Dies ist ein Beitrag zum Thema künstliche Intelligenz.

Zur KI: Schnaps und Panzer

KI im letzten Jahrhundert

KI ist heute ein grosses Schlagwort, war aber bereits in den 80er und 90er Jahren des letzten Jahrhunderts ein Thema, das für mich auf meinem Gebiet des Natural Language Processing interessant war. Es gab damals zwei Methoden, die gelegentlich als KI bezeichnet wurden und die unterschiedlicher nicht hätten sein können. Das Spannende daran ist, dass diese beiden unterschiedlichen Methoden heute noch existieren und sich weiterhin essenziell voneinander unterscheiden.

KI-1: Schnaps

Die erste, d.h. die Methode, die bereits die allerersten Computerpioniere verwendeten, war eine rein algorithmische, d.h. eine regelbasierte. Beispielhaft für diese Art Regelsysteme sind die Syllogismen des Aristoteles:

Prämisse 1: Alle Menschen sind sterblich.
Prämisse 2: Sokrates ist ein Mensch.
Schlussfolgerung: Sokrates ist sterblich.

Der Experte gibt Prämisse 1 und 2 ein, und das System zieht dann selbstständig die Schlussfolgerung. Solche Systeme lassen sich mathematisch untermauern. Mengenlehre und First-Order-Logic (Aussagelogik ersten Grades) gelten oft als sichere mathematische Grundlage. Theoretisch waren diese Systeme somit wasserdicht abgesichert. In der Praxis sah die Geschichte allerdings etwas anders aus. Probleme ergaben sich durch die Tatsache, dass auch die kleinsten Details in das Regelsystem aufgenommen werden mussten, da sonst das Gesamtsystem «abstürzte», d.h. total abstruse Schlüsse zog. Die Korrektur dieser Details nahm mit der Grösse des abgedeckten Wissens überproportional zu. Die Systeme funktionierten allenfalls für kleine Spezialgebiete, für die klare Regeln gefunden werden konnten, für ausgedehntere Gebiete wurden die Regelbasen aber zu gross und waren nicht mehr wartbar. Ein weiteres gravierendes Problem war die Unschärfe, die vielen Ausdrücken eigen ist, und die mit solchen hart-kodierten Systemen schwer in den Griff zu bekommen ist.

Diese Art KI geriet also zunehmend in die Kritik. Kolportiert wurde z.B. folgender Übersetzungsversuch: Ein NLP-Programm übersetzte Sätze vom Englischen ins Russische und wieder zurück, dabei ergab die Eingabe:
«Das Fleisch ist willig, aber der Geist ist schwach» die Übersetzung:
«Das Steak ist kräftig, aber der Schnaps ist lahm.»

Die Geschichte hat sich vermutlich nicht genau so zugetragen, aber das Beispiel zeigt die Schwierigkeiten, wenn man versucht, Sprache mit regelbasierten Systemen einzufangen. Die Anfangseuphorie, die seit den 50er Jahren mit dem «Elektronenhirn» und seiner «maschinellen Intelligenz» verbunden worden war, verblasste, der Ausdruck «Künstliche Intelligenz» wurde obsolet und durch den Ausdruck «Expertensystem» ersetzt, der weniger hochgestochen klang.

Später, d.h. um 2000, gewannen die Anhänger der regelbasierten KI allerdings wieder Auftrieb. Tim Berners-Lee, Pionier des WWW, lancierte zur besseren Benutzbarkeit des Internets die Initiative Semantic Web. Die Experten der regelbasierten KI, ausgebildet an den besten technischen Hochschulen der Welt, waren gern bereit, ihm dafür Wissensbasen zu bauen, die sie nun Ontologien nannten. Bei allem Respekt vor Berners-Lee und seinem Bestreben, Semantik ins Netz zu bringen, muss festgestellt werden, dass die Initiative Semantic Web nach bald 20 Jahren das Internet nicht wesentlich verändert hat. Meines Erachtens gibt es gute Gründe dafür: Die Methoden der klassischen mathematischen Logik sind zu rigid, die komplexen Vorgänge des Denkens nachzuvollziehen – mehr dazu in meinen anderen Beiträgen, insbesondere zur statischen und dynamischen Logik. Jedenfalls haben weder die klassischen regelbasierten Expertensysteme des 20. Jahrhunderts noch die Initiative «Semantic Web» die hoch gesteckten Erwartungen erfüllt.

KI-2: Panzer

In den 90er Jahren gab es aber durchaus auch schon Alternativen, die versuchten, die Schwächen der rigiden Aussagenlogik zu korrigieren. Dazu wurde das mathematische Instrumentarium erweitert.

Ein solcher Versuch war die Fuzzy Logic. Eine Aussage oder eine Schlussfolgerung war nun nicht mehr eindeutig wahr oder falsch, sondern der Wahrheitsgehalt konnte gewichtet werden. Neben Mengenlehre und Prädikatenlogik hielt nun auch die Wahrscheinlichkeitstheorie Einzug ins mathematische Instrumentarium der Expertensysteme. Doch einige Probleme blieben: Wieder musste genau und aufwendig beschrieben werden, welche Regeln gelten. Die Fuzzy Logic gehört also ebenfalls zur regelbasierten KI, wenn auch mit Wahrscheinlichkeiten versehen. Heute funktionieren solche Programme in kleinen, wohlabgegrenzten technischen Nischen perfekt, haben aber darüberhinaus keine Bedeutung.

Eine andere Alternative waren damals die Neuronalen Netze. Sie galten als interessant, allerdings wurden ihre praktischen Anwendungen eher etwas belächelt. Folgende Geschichte wurde dazu herum

gereicht:

Die amerikanische Armee – seit jeher ein wesentlicher Treiber der Computertechnologie – soll ein neuronales Netz zur Erkennung von eigenen und fremden Panzern gebaut haben. Ein neuronales Netz funktioniert so, dass die Schlussfolgerungen über mehrere Schichten von Folgerungen vom System selber gefunden werden. Der Mensch muss also keine Regeln mehr eingeben, diese werden vom System selber erstellt.

Wie kann das System das? Es braucht dazu einen Lernkorpus. Bei der Panzererkennung war das eine Serie von Fotos von amerikanischen und russischen Panzern. Für jedes Foto war also bekannt, ob amerikanisch oder russisch, und das System wurde nun so lange trainiert, bis es die geforderten Zuordnungen selbstständig erstellten konnte. Die Experten nahmen auf das Programm nur indirekt Einfluss, indem sie den Lernkorpus aufbauten; das Programm stellte die Folgerungen im neuronalen Netz selbstständig zusammen – ohne dass die Experten genau wussten, aus welchen Details das System mit welchen Regeln welche Schlüsse zog. Nur das Resultat musste natürlich stimmen. Wenn das System nun den Lernkorpus vollkommen integriert hatte, konnte man es testen, indem man ihm einen neuen Input zeigte, z.B. ein neues Panzerfoto, und es wurde erwartet, dass es mit den aus dem Lernkorpus gefundenen Regeln das neue Bild korrekt zuordnete. Die Zuordnung geschah, wie gesagt, selbständig durch das System, ohne dass der Experte weiteren Einfluss nahm und ohne dass er genau wusste, wie im konkreten Fall die Schlüsse gezogen wurden.

Das funktionierte, so wurde erzählt, bei dem Panzererkennungsprogramm perfekt. So viele Fotos dem Programm auch gezeigt wurden, stets erfolgte die korrekte Zuordnung. Die Experten konnten selber kaum glauben, dass sie wirklich ein Programm mit einer hundertprozentigen Erkennungsrate erstellt hatten. Wie konnte so etwas sein? Schliesslich fanden sie den Grund: Die Fotos der amerikanischen Panzer waren in Farbe, diejenigen der russischen schwarzweiss. Das Programm musste also nur die Farbe erkennen, die Silhouetten der Panzer waren irrelevant.

Regelbasiert versus korpusbasiert

Die beiden Anekdoten zeigen, welche Probleme damals auf die regelbasierte und die korpusbasierte KI warteten.

  • Bei der regelbasierten KI waren es:
    – die Rigidität der mathematischen Logik
    – die Unschärfe unserer Wörter
    – die Notwendigkeit, sehr grosse Wissenbasen aufzubauen
    – die Notwendigkeit, Fachexperten für die Wissensbasen einzusetzen
  • Bei der korpusbasierten KI waren es:
    – die Intransparenz der Schlussfolgerungs-Wege
    – die Notwendigkeit, einen sehr grossen und relevanten Lernkorpus aufzubauen

Ich hoffe, dass ich mit den beiden oben beschriebenen, zugegebenermassen etwas unfairen Beispielen den Charakter und die Wirkweise der beiden KI-Typen habe darstellen können, mitsamt den Schwächen, die die beiden Typen jeweils kennzeichnen.

Die Herausforderungen bestehen selbstverständlich weiterhin.  In den folgenden Beiträgen werde ich darstellen, wie die beiden KI-Typen darauf reagiert haben und wo bei den beiden Systemen nun wirklich die Intelligenz sitzt. Als Erstes schauen wir die korpusbasierte KI an.

Dies ist ein Beitrag zum Thema künstliche Intelligenz.

Informationsreduktion 8: Unterschiedliche Makrozustände

Zwei Zustände gleichzeitig

Im Vorbeitrag habe ich dargestellt, wie ein System auf zwei Ebenen beschrieben werden kann, auf der Ebene des Mikro- und auf der des Makrozustandes. Auf der Ebene des Mikrozustandes finden sich alle Detailinformationen, auf derjenigen des Makrozustandes finden sich weniger, dafür stabilere Informationen. Das klassische Beispiel ist das Wasserglas, wo der Mikrozustand die Bewegung der einzelnen Wassermoleküle beschreibt, der Makrozustand dafür die Temperatur der Flüssigkeit kennt. In diesem Beitrag möchte ich darauf eingehen, wie unterschiedlich die Beziehung zwischen Mikro- und Makrozustand sein kann.

Hängt der Makrozustand vom Mikrozustand ab?

Der Makrozustand ist informatisch, d.h. bezüglich seines Informationsgehaltes, zwar immer kleiner als der Mikrozustand, doch es stellt sich darüber hinaus die Frage, ob er überhaupt eine eigene Existenz hat. Ist er nicht einfach eine Folge des Mikrozustandes? Wie weit ist der Makrozustand durch den Mikrozustand wirklich determiniert? M.E. gibt es in dieser Hinsicht grosse Unterschiede. Das wird deutlich, wenn wir uns überlegen, wie wir die Zukunft der Systeme vorhersagen können:

Wasserglas

Wenn wir die Bewegungsenergien der vielen einzelnen Moleküle kennen, dann kennen wir auch die Temperatur. Das Wissen über den Mikrozustand erlaubt uns, den Makrozustand zu kennen. Wir wissen in diesem Fall auch, wie er sich weiterentwickelt. Wenn das System geschlossen bleibt, dann bleibt die Temperatur konstant. Der Makrozustand bleibt gleich, während im Mikrozustand jede Menge Informationen umher wuseln. Die Temperatur ändert sich erst, wenn Einflüsse von aussen dazu kommen, insbesondere Energieflüsse. Weshalb bleibt die Temperatur gleich? Der Grund liegt im Energieerhaltungssatz. Die Gesamtenergie des geschlossenen Systems bleibt gleich, somit bleibt auch der Makrozustand gleich, wie auch immer die Variablen im Mikrozustand sich ändern.

Weshalb aber gilt der Energieerhaltungssatz? Es bestehen enge Beziehungen zum Hamilton-Prinzip, dem Prinzip der kleinsten Wirkung. Das Hamilton-Prinzip ist eines der grundlegendsten Regeln in der Natur und gilt keinesfalls nur in der Thermodynamik.

Das geschlossene thermodynamische System ist ein ideales System, das so rein in der Natur kaum vorkommt. Es ist real immer nur eine Annäherung. Diesem abstrakten System möchte ich nun einige in der Natur wirklich vorkommende Systeme gegenüber stellen:

Wasserwellen und Bénard-Zellen

Dieser Typus System lässt sich als Welle auf einer Wasseroberfläche beobachten. In die gleiche Kategorie gehören für mich auch die Bénard-Zellen, über die Prigogine berichtet. In beiden Fällen entstehen die makroskopischen Strukturen als offene Systeme. Wellen und Zellen können nur durch äussere Einwirkungen entstehen, nämlich durch den Temperaturgradienten und die Gravitation bei den Bénard-Zellen und den Wind und die Gravitation bei den Wasserwellen. Die Strukturen entstehen durch das Einwirken dieser äusseren Kräfte, die in ihrem Zusammenspiel die makroskopische Strukturen entstehen lassen, welche interessanterweise über längere Zeit bestehen bleiben. Das Fortbestehen dieser Strukturen erstaunt. Weshalb behält die Welle ihre Form, obwohl immer wieder andere Materieteilchen ihre Grundlage bilden?

Im Unterschied zum isolierten thermischen System sind die in solchen offenen Systemen gebildeten makroskopischen Strukturen wesentlich komplexer. Einander gegenläufige Kräfte von aussen lassen völlig neue Formen – Wellen und Zellen – entstehen. Die äusseren Kräfte sind nötig, damit die Form entstehen und fortdauern kann, aber die entstandene makroskopische Form selber ist neu und nicht bereits in den informatisch (d.h. bezüglich Informationsgehalt) sehr einfachen äusseren Kräften angelegt.

Gleich wie im thermischen System haben wir neben der Makroebene der einfachen äusseren Form (Zelle oder Welle) eine Mikroebene mit den vielen Molekülen, welche z.B. die Form bilden. Und wieder ist die Makroebene, also die Form informatisch wesentlich einfacher als die Mikroebene der vielen Moleküle. Die Welle bleibt in ihrer Form über längere Zeit erhalten, während die vielen Moleküle, die sie bilden, sich wild durcheinander bewegen. Die Welle läuft weiter und erfasst neue Moleküle, welche jetzt die Welle bilden. In jedem Moment erscheint die Form, d.h. das Zusammenkommen des Makrozustandes aus den einzelnen Molekülen vollständig determiniert, aber informatisch viel einfacher erklärbar als durch die vielen Einzelmoleküle ist die Form auf der Makroebene selber, nämlich als einfache Fortsetzung der Welle, einfach mit neuen Molekülen auf der Mikroebene. Es sieht so aus, als wäre der neue Makrozustand am besten erklärbar durch den alten.

Im Gegensatz zu höher entwickelten Formen gilt bei Wasserwellen und Bénard-Zellen: Sobald die Kräfte von aussen nachlassen, verschwindet die Form. Unser Leben ist wie jedes organische aber darauf angewiesen, dass die Formen nicht so schnell verschwinden. Das bedeutet: Der Makrozustand muss gegenüber dem Mikrozustand gestärkt werden.

Der Thermostat

Wir können den Makrozustand stärken, indem wir ihm eine Steuerung beigeben. Denken Sie an eine Heizung mit einem Temperaturfühler. Sobald es kalt wird, wird geheizt, wenn die Temperatur zu hoch wird, hört das Heizen auf. Auf diese Weise wird die Temperatur, d.h. der Makrozustand konstant gehalten. Natürlich ist dieses Heizungssystem thermodynamisch alles andere als geschlossen. Und Temperaturfühler und Steuerung zur Unterstützung und Konstanthaltung des Makrozustandes sind vom Menschen gebaut, entstehen also nicht wie die Wasserwellen auf natürliche Weise. – Oder gibt es so etwas auch in der Natur?

Autopoese und Autopersistenz

Natürlich gibt es solche Steuerungen auch in der Natur. Während meines Medizinstudiums war ich beeindruckt von den vielen und komplexen Steuerungskreisen im menschlichen Organismus. Steuerung hat immer mit Information zu tun. Das Medizinstudium hat mir nahegelegt, Information als wesentlichen Bestandteil der Welt anzusehen.

Man nennt die automatische Entstehung der Welle oder der Bénard-Zelle Autopoese. Welle und Zelle sind aber nicht beständig, die biologischen Organismen jedoch schon, jedenfalls wesentlich beständiger als es die Welle ist. Dies geschieht mit Hilfe von Steuerungen, die Teile des Organismus selber sind. Man muss sich das so vorstellen, als ob eine Welle realisiert, dass sie völlig vom Wind abhängig ist und darauf reagiert, in dem sie die Quelle ihrer Existenz (ihre Nahrung, den Wind) aktiv sucht, bzw. in sich eine Struktur schafft, die seine Energie für die schlechten Zeiten konserviert, wo es nicht weht.

Genau das tut der Körper, jeder biologische Körper. Er ist ein Makrozustand, der sich selber erhalten kann, indem er über Steuerungsvorgänge seinen Mikrozustand kontrolliert und auf die Umwelt reagiert.

Biologische Systeme

Diese Art System unterscheidet sich von isolierten thermischen Systemen durch seine Fähigkeit, Formen entstehen zu lassen und von einfachen, zufällig entstehenden natürlichen Formen wie einer Wasserwelle durch seine Möglichkeit, die Form aktiv überleben zu lassen. Dies ist möglich, da solche biologischen Systeme auf die Umgebung mit dem Ziel reagieren können, ihr Überlebens zu sichern. Von den einfacheren autopoietischen Systemen unterscheidet sich ein biologisches System durch eine länger andauernde Formkonstanz dank komplexen inneren Steuerungen und eine gezielte Aktivität gegenüber der Umgebung.

Damit die Formkonstanz möglich ist, braucht es ein wie immer geartetes Gedächtnis, das das Muster bewahrt. Und um auf die Umgebung gezielt zu reagieren, hilft eine wie immer geartete Vorstellung über diese Aussenwelt. Beides, das Gedächtnis für das eigene Muster und die wie auch immer vereinfachte Vorstellung über die Aussenwelt müssen im biologischen System informatisch fixiert sein, sonst kann die Formkonstanz nicht erhalten werden. Das biologische System hat somit einen wie immer gearteten informatischen Innenraum.

Biologische Systeme sind wegen den oben beschriebenen Eigenschaften immer interpretierende Systeme.


Dies ist ein Beitrag aus der Serie Informationsreduktion.

Logodynamik

Wozu dient Logik?

Geht es bei Logik ums Denken? Das dachte ich jedenfalls früher. Logik sei quasi die «Lehre vom Denken» oder gar die «Lehre vom richtigen Denken». Beim näheren Blick aber zeigt sich, dass es bei dem, was als Logik bezeichnet und studiert wird, nicht ums Denken, sondern ums Beweisen geht. Die klassische Logik ist in der Tat eine Wissenschaft des Beweisens.

Denken ist aber weit mehr als Beweisen. Man muss die Beweise erst finden. Dann muss man die Beweise im Kontext bewerten. Der Kontext kann ändern. Was mache ich mit Widersprüchen? Meines Erachtens sollte Logik untersuchen, wie wir uns ganz allgemein den Fragen des richtigen Denkens stellen und mehr sein als nur eine Wissenschaft des Beweisens. Wie aber gelangen wir zu einer solchen erweiterten Logik?

Der entscheidende Schritt war für mich die Erkenntnis, dass es eine statische und eine dynamische Logik gibt. Erst wenn wir wagen, den sicheren Garten der statischen Logik zu verlassen, können wir anfangen, das wirkliche Denken zu untersuchen.

Klassische Logik = Logostatik

Die klassische Logik prägte das abendländische Geistesleben über zwei Jahrtausende lang – angefangen bei den Syllogismen des Aristoteles über die Scholastik des Mittelalters mit den Lehren des Thomas von Aquin bis hin zur heute noch aktuellen Prädikatenlogik ersten Grades (FOL = First Order Logic) der Mathematiker. Diese Logiken sind genuin statisch. Bei ihnen hat jede Aussage einen allgemein gültigen, absoluten Wahrheitswert; die Aussage ist entweder wahr oder falsch – und das darf sich nicht ändern. Mit anderen Worten: Das logische Gebäude ist statisch. Die Mathematiker nennen eine solche Logik monoton.

Logodynamik

Während Widersprüche in einem klassischen logischen System nicht geduldet werden können, bilden sie in einem dynamischen System entscheidende Elemente im Netzwerk der Aussagen. Genauso wie sie es in unserem Denken tun. Widersprüche sind nämlich nichts anderes als Ausgangspunkte für unser Denken. Schliesslich zwingen uns Widersprüche, z.B. Beobachtungen die nicht zueinander passen, die Dinge genauer anzusehen. Wenn Aussagen einander widersprechen, wollen wir darüber nachdenken, was gilt. Widersprüche, in klassischer Logik verboten, sind in dynamischer Logik der eigentliche Ausgangspunkt des Denkens. Genauso wie in der Physik eine elektrische Spannung z.B. die Energie für den Strom liefert, so bildet für die Logik ein Widerspruch die Spannung, um weiter zu denken.

Weiterdenken heisst aber auch immer, offen zu sein für ganz neue Aussagen. Auch darin unterscheidet sich Logodynamik von klassischer Logik. Letztere definiert zuerst ihre «Welt», das heisst alle Elemente, die später, bzw. überhaupt verwendet werden dürfen. Das System muss geschlossen sein. Die klassische Logik verlangt eine klare Grenzziehung um die Welt eines Aussagensystems, und zwar bevor Schlüsse gezogen (gedacht) werden kann. Unser Denken ist aber keinesfalls geschlossen. Wir können immer neue Objekte einbeziehen, neue Differenzierungen für bekannte Objekte austesten, neue Gründe finden, Gründe neu bewerten usw. Mit anderen Worten: Wir lernen. Deshalb muss ein Logiksystem, das sich der Art, wie Menschen denken annähert, prinzipiell offen sein.

In einem klassischen logischen System gibt es keine Zeit. Alles was gilt, gilt immer. In einem logodynamischen System ist das prinzipiell anders. Was heute als wahr angesehen wird, kann morgen als Irrtum erkannt werden. Ohne diese Möglichkeit gibt es kein Lernen. Das logodynamische System erkennt die Zeit als notwendiges und internes Element an. Das greift ganz tief in den logischen Mechanismus ein, quasi in den «Grundschalter» der Logik, nämlich in das IF-THEN. Das IF-THEN der dynamischen Logik hat nämlich prinzipiell (immer) einen Zeitbezug: Das IF ist stets vor dem THEN.

Ein statisches System könnte die Zeit höchstens als Objekt seiner Betrachtung erkennen, quasi als eine seiner Variablen, nicht aber als etwas, was mit seinem eigenen Funktionieren zu tun hat.

Somit unterscheidet sich ein logodynamisches von einem logostatischen System durch folgende drei Eigenschaften:

  1. Non-Monotonie: Widersprüche im System sind erlaubt.
  2. Offenheit: Jederzeit können neue Elemente im System auftauchen.
  3. Systeminterne Zeit: Zwischen IF und THEN vergeht Zeit.

Erst eine dynamische Logik erlaubt es, Denk- und Informationsprozesse in einen realen Rahmen zu sehen. Mehr zum Thema Logik -> Übersichtsseite Logik


 

Informationsreduktion 7: Mikro- und Makrozustand

Beispiele von Informationsreduktion

In den bisherigen Texten haben wir Beispiele von Informationsreduktion in folgenden Gebieten angesehen:

  • Kodierung / Klassifizierung
  • Sinneswahrnehmung
  • Fallpauschalen
  • Meinungsbildung
  • Wärmelehre

Was ist gemeinsam?

Mikro- und Makrozustand

Allen diesen Beispielen ist gemeinsam, dass wir bezüglich Informationen zwei Zustände haben, einen Mikrozustand mit vielen Details und einen Makrozustand mit wesentlich weniger Information. Sehr anschaulich und den meisten noch aus der Schule bekannt, ist das Verhältnis der beiden Ebenen in der Wärmelehre.

Beide Zustände existieren gleichzeitig. Sie betreffen weniger das betrachtete Objekt, als vielmehr die Sichtweise des Betrachters. Will er viel wissen? Oder weniger? Oder gar nur die Essenz, beziehungsweise das, was für ihn die Essenz darstellt? Je nach dem richtet sich sein Blick mehr auf die vielen Details des Mikrozustandes oder die einfache Information des Makrozustandes.

Mikro- und Makrozustand in der Informationstheorie

Die Bedeutung von Mikro- und Makrozustand wurde zuerst in der Wärmelehre erkannt. Meines Erachtens handelt es sich aber um ein ganz allgemeines Phänomen, das eng mit dem Prozess der Informationsreduktion verknüpft ist. Insbesondere bei der Untersuchung von Informationsverarbeitung in komplexen Situationen ist es hilfreich, die beiden Zustände zu unterscheiden.
Überall dort, wo die Informationsmenge reduziert wird, kann ein Mikro- und ein Makrozustand unterschieden werden. Dabei ist der Mikrozustand derjenige, der mehr Information enthält, beim Makrozustand ist die Informationsmenge reduziert.

Der detailreichere Mikrozustand gilt als «realer»

Je mehr Details wir sehen, umso besser glauben wir eine Sache zu erkennen. Deshalb sehen wir den detailreichen Mikrozustand als die eigentliche Realität an. Der Makrozustand ist dann entweder eine Interpretation oder eine Konsequenz des Mikrozustandes.

… aber der informationsarme Makrozustand interessiert mehr

Bemerkenswerterweise sind wir am informationsarmen Zustand aber mehr interessiert als am Mikrozustand. Die vielen Details des Mikrozustandes sind uns zu viele. Entweder sind sie uninteressant (Wärmelehre, Sinneswahrnehmung) oder sie verhindern die gewünschte klare Sicht auf das Ziel, für das der Makrozustandes steht (Kodierung, Klassifizierung, Meinungsbildung, Fallpauschalen).

Seltsamer Antagonismus

Es besteht somit ein seltsamer Antagonismus zwischen den beiden Zuständen: Während wir den einen als realer ansehen, sehen wir den anderen als für uns relevanter an. So als stünden real und relevant im Gegensatz zueinander. Je realer, d.h. detailreicher die Sichtweise wird, umso irrelevanter erscheint die einzelne Information, und je intensiver die Sichtweise sich um Relevanz bemüht, umso mehr löst sie sich von der Realität. Dieses paradoxe Verhältnis von Mikro- zu Makrozustand ist charakteristisch für alle Verhältnisse von Informationsreduktion und zeigt die Bedeutung aber auch die Herausforderung, die solche Prozesse an sich haben.

Gibt es Unterschiede zwischen den informationsreduzierenden Prozessen?

Auf jeden Fall. Gemeinsam ist ihnen nur, dass eine Darstellung auf einer detailreichen Mikro- und informationsarmen Makroebene möglich ist und die Makroebene meist relevanter ist.

Solche Prozesse beinhalten immer eine Informationsreduktion, aber die Art, wie reduziert wird, unterscheidet sich. Es ist nun äusserst erhellend, die Unterschiede genauer zu untersuchen. Die Unterschiede spielen nämlich entscheidend in viele Belange hinein. Mehr dazu im Fortsetzungsbeitrag.


Dies ist ein Beitrag zu einer Serie über Informationsreduktion. Der vorhergehende Beitrag beschäftigte sich mit Informationsreduktion in der Wärmelehre.


 

Informationsreduktion 6: Das Wasserglas, revisited

Ist das Physik?

In meinem Beitrag Informationsreduktion 5: Das klassische Wasserglas habe ich als Beispiel für die Informationsreduktion das Wasserglas erwähnt. Dort reduziert sich die komplexe und detailreiche Information über die Bewegungsenergie der Wassermoleküle (Mikroebene) zur simplen Information über die Temperatur des Wassers.

Ein Physiker könnte dieses Beispiel natürlich kritisieren. Zu Recht, denn das Wasserglas ist viel komplizierter. Die Berechnungen von Boltzmann gelten nur für das ideale Gas, also für ein Gas, dessen Moleküle keine Interaktionen untereinander haben, ausser den Stössen, die sie untereinander erfahren und dabei ihre individuellen Bewegungsinformationen untereinander austauschen.

Ein ideales Gas

Ein solches Gas existiert auf der Erde nicht, es handelt sich um eine Idealisierung. Zwischen den einzelnen Molekülen existieren nämlich noch ganz andere Kräfte als die rein mechanischen. Im Wasserglas sowieso. Denn Wasser ist kein Gas, sondern eine Flüssigkeit, und weil zwischen Molekülen in Flüssigkeiten viel stärkere Bindungen existieren als zwischen Gasmolekülen, komplizieren diese zusätzlichen Bindungen das Bild.

Wasser

Beim Wasser ist es darüber hinaus nochmals besonders. Denn das Wassermolekül (H2O) ist ein starker Dipol, d.h. dass es einen starken elektrischen Ladungsunterschied zwischen seinen beiden Polen aufweist, dem negativ geladenen Pol mit dem Sauerstoffatom (O) und dem positiv geladenen Pol mit den beiden Wasserstoffatomen (H2). Diese starke Polarität führt dazu, dass sich mehrere Wassermoleküle aneinander lagern. Wenn solche Zusammenballungen auf Dauer bestehen würden, wäre das Wasser keine Flüssigkeit, sondern ein fester Stoff (wie Eis). Da die Zusammenballungen aber nur temporär sind, ist das Wasser eine Flüssigkeit, allerdings eine besondere, die sich ganz speziell verhält. Siehe dazu z.B. die aktuelle Forschung von Gerald Pollack.

Physik und Informationswissenschaft

Ein Physiker hätte das Wasserglas also wohl kaum als Beispiel gewählt. Ich möchte es allerdings nicht ändern. Um das Verhältnis zwischen der Information auf dem Mikro- und dem Makrozustand zu erklären, eignet sich das Wasserglas genauso gut. Boltzmanns Berechnungen stimmen zwar nur noch ungefähr, aber seine These bleibt: Die Temperatur eines Gegenstands ist auf der Makroebene die Information, die die vielen Informationen über die chaotischen Bewegungen der einzelnen Moleküle der Mikroebene quasi zusammenfasst.

Für einen Physiker ist das Wasserglas ein schlechtes Beispiel. Für einen Informationsphilosophen macht es aber keinen Unterschied. Ob ideales Gas oder Wasserglas, immer besteht ein Informationsgefälle zwischen dem Makrozustand und dem Mikrozustand. Darauf kommt es an. Im Wasserglas enthält der Mikrozustand Milliarden mal mehr Informationen als der Makrozustand. Und obwohl der Mikrozustand informationsmächtiger ist, interessiert uns der Makrozustand interessanterweise mehr.

Wie verläuft der Übergang?

Wie verläuft nun der Übergang vom Mikro- zum Makrozustand in den verschiedenen Fällen?  Offensichtlich verläuft er im Wasserglas wegen den speziellen Eigenschaften des H2O – Moleküls etwas anders als beim idealen Gas. Und in unseren weiteren, völlig unphysikalischen Beispielen Klassifizierung, Begriffsbildung und Framing verläuft dieser Übergang vom Mikro- zum Makrozustand nochmals völlig anders, und auf diese Besonderheiten sollten wir jetzt eingehen. Siehe dazu den Fortsetzungsbeitrag.


Zum Thema Informationsreduktion finden Sie hier die Übersichtsseite.


 

Informationsreduktion 5: Das klassische Wasserglas

Informationsreduktion in der Wärmelehre

In der Wärmelehre findet sich ein ganz besonderes Beispiel für die Informationsreduktion. Das Beispiel ist deshalb besonders, weil es so einfach ist. Es zeigt das Grundgerüst der Informationsreduktion in aller Deutlichkeit, ohne die Komplexität anderer Beispiele, z.B. solchen aus der Biologie. Es ist vielen von uns auch aus dem Physikunterricht bereits bestens bekannt.

Was ist Temperatur?

Ein Wasserglas enthält viele Wassermoleküle, die sich mit unterschiedlichen Geschwindigkeiten in unterschiedlichen Richtungen bewegen, dabei immer wieder mit anderen Wassermolekülen zusammenstossen und bei jedem Stoss Geschwindigkeit und Bewegungsrichtung ändern. Mit anderen Worten: Das Wasserglas ist der typische Fall eines realen Objektes, das eine von aussen unüberblickbare Informationsmenge enthält.

Das ist die Darstellungsweise mit den Wassermolekülen. Was ist nun die Temperatur der Flüssigkeit im Wasserglas?

Wie Ludwig Boltzmann erkannte, ist die Temperatur nichts anderes als die Folge der Bewegungen der vielen einzelnen Einzelmoleküle in einem Gasbehälter oder einem Wasserglas. Je schneller sie sich bewegen, umso mehr Energie haben sie und umso höher wird die Temperatur.

Wie er zeigte, lässt sich die Temperatur statistisch eindeutig aus den Bewegungsenergien der vielen Moleküle berechnen. Milliarden von Molekülen mit ihren dauernden Bewegungsänderungen ergeben genau eine Temperatur. Aus vielen Informationen wird eine.

Die Mikroebene und die Makroebene

Bemerkenswerterweise kann auf der Ebene der einzelnen Moleküle nicht von Temperatur gesprochen werden. Dort findet sich nur die Bewegung der vielen einzelnen Moleküle, die sich bei jedem Stoss ändert, abrupt und z.T. massiv. Die Bewegungsenergie der Moleküle ist abhängig von ihrer Geschwindigkeit und ändert sich entsprechend bei jedem Stoss mit.

Obwohl sich auf der Mikroebene der Wassermoleküle die Bewegungen dauernd ändern, bleibt auf der Makroebene des Wasserglases die Temperatur vergleichsweise konstant. Und für den Fall, dass sich die Temperatur ändert, weil z.B. Wärme vom Wasser an die Wände des Glases abgegeben wird, gibt es Formeln, die die Bewegung der Wärme und somit die Temperaturänderung berechnen lassen. Diese Formeln bleiben auf der Makroebene, d.h. sie kommen ganz ohne den Einbezug der vielen und komplizierten Stösse und Bewegungen der Wassermoleküle aus.

Man kann den Temperaturverlauf somit vollständig auf der Makroebene beschreiben und berechnen, ohne die Details der Mikroebene mit den vielen Wassermolekülen kennen zu müssen. Obwohl die Temperatur (Makroebene) vollständig und ausschliesslich durch die Bewegung der Moleküle (Mikroebene) definiert wird, ist die Kenntnis der Detailinformationen für ihre Voraussage (Temperaturverlauf auf der Makroebene) gar nicht nötig. Die Details der Mikroebene scheinen auf der Makroebene zu verschwinden. Wir haben einen typischen Fall von Informationsreduktion.


Im Fortsetzungsbetrag wird das Bild vom Wasserglas präzisiert. Anschliessend schauen wir das Verhältnis von Mikro- und Makrozustand genauer an.


Zum Thema Informationsreduktion finden Sie hier die Übersichtsseite.


 

Informationsreduktion 4: Framing

Framing macht den Unterschied

Aktuell wird der Framing-Effekt häufig erwähnt. Es geht bei dem Effekt darum, dass die gleiche Botschaft ganz unterschiedlich wahrgenommen wird, je nachdem, welche Zusatzinformationen mit der Botschaft mitgesendet werden. Diese zusätzlichen Informationen dienen dazu, der Botschaft den passenden Rahmen (Frame) zu geben, sodass die Empfänger der Botschaft entsprechend reagieren.

Auch wenn die eigentliche Botschaft neutral gesehen die gleiche wäre und die Zusatzinformationen der Wahrheit entsprechen, kann der Empfänger mit Framing gehörig manipuliert werden – nur schon durch die Auswahl der (an sich korrekten) Details. Framing wird selbstverständlich in der Werbung verwendet, ganz besonders aktuell und heikel ist aber das Verwenden von Framing in der politischen Berichterstattung.

Natürlich gehört zum Framing in Politik und Werbung immer die Wortwahl, die einen Fact mit den entsprechenden emotionalen Inhalten verbindet. Doch schon die simple Tatsache, welche Aspekte (Details) des Geschehens in den Vordergrund gerückt werden und welche in den Hintergrund, verändert das Bild, das sich der Empfänger von der Botschaft macht. Bei der Rezeption der Tatsache, dass viele Flüchtlinge/Migranten nach Europa wollen, kommt es zum Beispiel darauf an, welche der vielen Menschen man im Blick hat und auf welche der vielen Aspekte, Gründe, Umstände und Folgen ihrer Reise man das Hauptgewicht legt. Berichte über kriminelle Aktivitäten einzelner Migranten lassen in uns ein ganz anderes Bild entstehen als Schilderungen der unmenschlichen, unfassbar schrecklichen Bedingungen der Reise. Die Tatsache, dass Menschen kommen, ist ein Fact. Wie man aber den Fact bewertet, d.h. seine Interpretation, ist eine Sache der Vereinfachung, d.h. der Fact-Auswahl. Damit sind wir ganz klar beim Phänomen der Informationsreduktion angekommen.

Framing und Informationsreduktion

Die Realität enthält immer viel mehr Detailinformationen als wir verarbeiten können. Und weil wir deshalb immer eine Vereinfachung durchführen müssen, spielt die Auswahl der Information eine entscheidende Rolle: Was wird in den Vordergrund gerückt wird und was in den Hintergrund? Je nachdem verändert sich unsere Wahrnehmung und in der Folge auch unser Urteil. Dieses Phänomen der Informationsreduktion ist das gleiche wie bei der medizinischen Kodierung, wo auch die unterschiedlichsten Merkmale zur Kodezuweisung verwendet werden – oder eben nicht –  (siehe Beitrag Zwei Arten von Codierung-1). Die Reduktion und Selektion der Information findet ganz prinzipiell bei allen Wahrnehmungsprozessen statt. Wir müssen (um zu urteilen und zu handeln) stets vereinfachen. Die Selektion der Details macht unsere Wahrnehmung aus, und die Selektion ist nicht vom betrachteten Objekt abhängig, sondern vom Subjekt, das die Auswahl durchführt.

Verschiedene Interpretationen sind möglich (siehe früheren Beitrag)

Die Realität (oben im Diagramm) enthält alle Fakten, unsere Interpretation der Realität ist aber immer eine Auswahl aus den vielen Details der Fakten, und wir können dadurch zu unterschiedlichen Ansichten gelangen. Ich glaube, dass dieses Phänomen der Informationsreduktion (das Interpretationsphänomen) etwas Grundlegendes und Unausweichliches ist, und dass es an den unterschiedlichsten Orten eine wichtige Rolle spielt. Der Framing-Effekt ist nur eines, aber ein typisches Beispiel dafür.


Links zum Framing:
Spiegelbeitrag «Ab jetzt wird zurückgeframt» vom 22.2.2019
Wikipedia zum Framing-Effekt
Interview mit Kommunikationstrainer Benedikt Held


Die Phänomene Informationsreduktion und Selektion hängen eng zusammen. Damit beschäftigt sich der Vorbeitrag dieser Serie.

In der Fortsetzung dieser Serie geht es um Informationsreduktion in der Physik.


Zum Thema Informationsreduktion finden Sie hier die Übersichtsseite.


 

IF-THEN / statisch oder dynamisch?

Zwei Typen von IF-THEN

Viele glauben, dass das IF-THEN in der Logik eine klare Sache sei. Meiner Ansicht nach wird dabei aber oft übersehen, dass es vom IF-THEN zwei verschiedene Typen gibt. Der Unterschied zwischen den beiden besteht darin, ob das IF-THEN eine interne zeitliche Komponente besitzt oder nicht.

Dynamisches (reales) IF-THEN

Für viele von uns ist das IF-THEN dynamisch, d.h. es besitzt eine spürbare zeitliche Komponente. Bevor wir zum Schluss, d.h. zum THEN gelangen, schauen wir das IF genau an, d.h. die Bedingung, die anschliessend den Schluss erlaubt. Mit anderen Worten: Die Bedingung wird ZUERST angesehen, DANN kommt der Schluss

Das ist nicht nur im menschlichen Denken, sondern auch bei Computerprogrammen so. Computer erlauben die Kontrolle von ausgedehnten und komplexen Bedingungen (IFs). Diese müssen durch den Prozessor des Rechners im Memory abgelesen werden. Vielleicht müssen noch kleinere Berechnungen durchgeführt werden, die in den IF-Statements enthalten sind, und die Resultate der Berechnungen müssen dann mit den verlangten IF-Bedingungen verglichen werden. Natürlich brauchen die Abfragen Zeit. Auch wenn der Computer sehr schnell ist, und die Zeit, die für die Kontrolle des IFs benötigt wird, minimal ist, ist sie trotzdem messbar. Erst NACH der Kontrolle, kann der in der Computersprache formulierte Schluss, das THEN, ausgeführt werden.

Im menschlichen Denken, wie auch bei der Ausführung eines Computerprogramms, sind also das IF und das THEN zeitlich eindeutig getrennt. Das wird Sie nicht erstaunen, denn beides, der Ablauf des Computerprogramms wie das menschliche Denken sind reale Vorgänge, sie laufen in der realen, physischen Welt ab, und in dieser benötigen alle Prozesse Zeit.

Statisches (ideales) IF-THEN

Etwas mehr erstaunen wird Sie vielleicht, dass in der klassischen mathematischen Logik, das IF-THEN keine Zeit braucht. Das IF und das THEN bestehen simultan. Wenn das IF wahr ist, ist automatisch und sofort das THEN wahr. Eigentlich ist es sogar falsch, von vorher und nachher zu sprechen, da Aussagen in der klassischen mathematischen Logik immer ausserhalb der Zeit stehen. Wenn eine Aussage wahr ist, ist sie immer wahr, wenn sie falsch ist, ist sie immer falsch (=Monotonie, siehe vorhergehende Beiträge).

Das mathematische IF-THEN wird oft mit Venn-Diagrammen (Mengen-Diagrammen) erläutert. In diesen Visualisierungen ist das IF z.B. durch eine Menge repräsentiert, die eine Teilmenge der Menge des THEN ist. Es handelt sich für die Mathematiker beim IF-THEN um eine Relation, die vollständig aus der Mengenlehre abgeleitet werden kann. Dabei geht es um (unveränderbare) Zustände von Wahr oder Falsch, und nicht um Prozesse, wie beim Denken in einem menschlichen Hirn oder beim Ablauf eines Computerprogramms.

Wir können also unterscheiden
  • Statisches IF-THEN:
    In Idealsituationen, d.h. in der Mathematik und in der klassischen mathematischen Logik.
  • Dynamisches IF-THEN:
    In Realsituation, d.h. in real ablaufenden Computerprogrammen und im menschlichen Hirn.
Dynamische Logik verwendet das dynamische IF-THEN

Wenn wir eine Logik suchen, die der menschlichen Denksituation entspricht, dann dürfen wir uns nicht auf das ideale, d.h. das statische IF-THEN beschränken. Das dynamische IF-THEN entspricht dem normalen Denkvorgang besser. Die dynamische Logik, für die ich plädiere, respektiert die Zeit und braucht das natürliche, d.h. das dynamische, das reale IF-THEN.

Wenn Zeit eine Rolle spielt, und nach dem ersten Schluss die Welt anders aussehen kann als vorher, kommt es darauf an, welcher Schluss zuerst gezogen wird. Man kann nicht beide gleichzeitig ziehen – ausser man lässt zwei gleichzeitig ablaufende Prozesse zu. Die beiden parallel laufenden Prozesse können sich aber gegenseitig beeinflussen, was die Sache natürlich auch nicht einfacher macht. Die dynamische Logik ist aus diesem und vielen anderen Gründen wesentlich komplexer als die statische. Umso nötiger brauchen wir, um die Sache in den Griff zu bekommen, einen klaren Formalismus.

Statisches und dynamisches IF-THEN nebeneinander

Die beiden Arten des IF-THENs widersprechen sich nicht, sondern ergänzen sich und können durchaus koexistieren. So beschreibt das klassische, statische IF-THEN logische Zustände, die in sich geschlossen sind, und das dynamische beschreibt logische Vorgänge, die von einem logischen Zustand zum anderen führen.

Dieses Zusammenspiel von Statik und Dynamik ist vergleichbar mit dem Zusammenspiel von Statik und Dynamik in der Physik, z.B. mit der Statik und Dynamik in der Mechanik oder der Elektrostatik und der Elektrodynamik in der Elektrizitätslehre. Auch dort beschreibt der jeweils statische Teil die Zustände (ohne Zeit) und der dynamische die Änderung der Zustände (mit Zeit).


Dies ist ein Beitrag zur dynamischen Logik. Er wird fortgesetzt mit der Frage, was passiert, wenn zwei dynamische IF-THENs miteinander konkurrieren.


Erst eine dynamische Logik erlaubt es, Denk- und Informationsprozesse in einen realen Rahmen zu sehen. Mehr zum Thema Logik -> Übersichtsseite Logik


 

Informationsreduktion 3: Information ist Selektion

Informationsreduktion ist überall

Im vorhergehenden Beitrag habe ich beschrieben, wie bei der Kodierung medizinischer Sachverhalte – einem Vorgang, der von der Realität bis zu den Fallpauschalen (DRGs) führt – eine in der Tat drastische Reduktion der Informationsmenge stattfindet:

Informationsreduktion
Informationsreduktion

Diese Informationsreduktion ist nun keinesfalls auf die Information in der Medizin und ihre Kodierung beschränkt, sondern ist ein ganz allgemeines Phänomen. Immer wenn wir wahrnehmen, führen schon die Sinnesorgane, z.B. die Retina, eine Reduktion der Informationsmenge durch, im Hirn werden die Daten weiter vereinfacht, und im Bewusstsein kommt nur die für uns wichtige Essenz der Eindrücke an.

Informationsreduktion ist nötig

Wenn man die Frage stellt, wollen Sie viel wissen oder wenig, werden die meisten antworten, dass sie möglichst alles wissen möchten. Zum Glück wird ihr Wunsch nicht erfüllt. Bekannt ist das Beispiel des «Savants», der nach einem Flug über eine Stadt jedes einzelne Haus korrekt aus dem Gedächtnis zeichnen konnte. Der gleiche Mensch war aber unfähig, sich im Alltag allein zu bewegen. Die Informationsflut hindert ihn daran. Wir wollen keinesfalls alle Details wissen.

Informationsreduktion bedeutet Selektion

Wenn wir gezwungener- und vernünftigerweise Daten verlieren, dann stellt sich sofort die Frage, welche wir verlieren und welche wir behalten. Manche Leute stellen sich vor, dass die Auswahl naturgegeben sei, und dass im betrachteten Objekt begründet liegt, welche Daten wichtig sind und welche nicht. Diese Annahme ist m. E. schlicht falsch. Es ist der Betrachter, der entscheidet, welche Informationen für ihn wichtig sind und welche er vernachlässigen kann. Es hängt von seinen Zielen ab, welche Informationen er behalten will.

Natürlich kann der Betrachter aus dem Objekt nicht Informationen herausholen, die nicht drin stecken. Doch welche Informationen für ihn wichtig sind, entscheidet er selber – oder das System, dem er sich verpflichtet fühlt.

Ganz sicher ist das in der Medizin so. Wichtig sind diejenigen Informationen über den Patienten, die dem Arzt erlauben, eine sinnvolle Diagnose zu stellen – und das System der Diagnosen hängt wesentlich davon ab, was und wie therapiert werden kann. Der medizinische Fortschritt führt dann dazu, dass immer wieder andere Aspekte und Daten eine Rolle spielen.

Mit anderen Worten: Wir können nicht alles wissen, und wir müssen die Menge der erhältlichen Informationen aktiv verkleinern, um zu urteilen und zu handeln. Die Informationsreduktion ist unumgänglich und sie bedeutet immer eine Selektion.

Unterschiedliche Selektionen sind möglich

Welche Information geht verloren, welche bleibt erhalten? Die Antwort auf diese Frage entscheidet, wie unser Bild des betrachteten Objektes aussieht.

Interpretation der Realität
Verschiedene Informations-Selektionen (Interpretationen) sind möglich

Weil der Betrachter – bzw. das ihn prägende System – entscheidet, welche Information behalten wird, sind verschiedene Selektionen möglich. Je nachdem, welche Merkmale wir in den Vordergrund stellen, werden unterschiedliche Individualfälle in die gleiche Gruppe oder Schublade gezählt und unterschiedliche Betrachter gelangen so zu unterschiedlichen Interpretationen derselben Realität.


Diese Serie wird fortgesetzt mit einem ein konkreten Beispiel von Selektion, dem Framing.


Zum Thema Informationsreduktion finden Sie hier die Übersichtsseite.


 

Non-Monotonic Reasoning (NMR)

Begriffsmoleküle und NMR

Im Beitrag Zwei Arten von Codierung 1 habe ich die Aufgabe beschrieben, Computer die beeindruckende Vielfalt der medizinischen Diagnosen «verstehen» zu lassen. Dazu war es  nötig, die unterschiedlichen Diagnoseformulierungen beim Lesen durch den Computer in eine einheitliche Form zu überführen, welche alle semantischen Details in leicht abrufbarer Form repräsentiert.

Mit den Begriffsmolekülen ist uns das erfolgreich gelungen. Dabei halfen uns zwei Eigenschaften der Methode der Begriffsmoleküle, nämlich a) die konsequent komposite Repräsentation der Semantik, sowie b) ein Reasoner auf nicht-monotoner Basis. Die Verwendung eines nicht-monotonen Reasoners war damals überhaupt nicht im Trend. Die meisten Forschungsgruppen im Bereich der medizinischen Computerlinguistik waren gerade dabei, von der First-Order-Logic (FOL) auf Description Logic (DL) umzusteigen und glaubten, dass komplexe Semantiken am besten mit Hilfe von DL durch einen Computer interpretiert werden. In der Praxis allerdings zeigte sich, dass wir als kleine private Forschungsfirma ohne staatliche Unterstützung die erfolgreicheren waren. Wir setzten auf eine nicht-monotone Methode, während die anerkannte Lehrmeinung mit FOL und DL auf eine monotone Methode setzte.

Was ist monotone Logik?

Monotonie bedeutet in der Logik, dass durch Schlüsse gewonnene Aussagen ihren Wahrheitsgehalt nicht ändern, auch wenn neue Aussagen dazu kommen, die ihnen widersprechen. Was also im System als wahr erkannt wurde, bleibt wahr, was als falsch erkannt wurde, bleibt falsch. Nicht-Monotonie bedeutet umgekehrt, dass durch das System gezogene Schlüsse auch wieder in Frage gestellt werden können.

Was ist das Problem bei der Nicht-Monotonie?

Man muss sich im Klaren sein, dass Beweise nur in einem monotonen System möglich sind. In einem nicht-monotonen weiss man nie, ob nicht irgendwoher ein Argument kommt, das zu ganz anderen Schlüssen führt. Da Beweise z.B. in der Mathematik essentiell sind, ist es einleuchtend, dass die mathematische Logik ganz klar auf Monotonie setzt. 

Natürlich geht es bei der Computerlinguistik nicht um Beweise, sondern um korrekte Zuordnungen von Wörtern zu Begriffen. Der Vorteil, Beweise führen zu können, so wichtig er für die Mathematik ist, spielt für unsere Aufgabe keine Rolle.

Was ist das Problem bei der Monotonie?

Ein System, das seine Aussagen nicht verändern kann, ist nicht in der Lage, wirklich zu lernen. So funktioniert z.B. das menschliche Hirn mit Sicherheit nicht-monoton.

Ein monotones System muss auch geschlossen sein. In der Praxis sind wissenschaftliche Ontologien natürlich nicht geschlossen, sondern wachsen mit dem Erkenntnisfortschritt. Das gleiche Fortschreiten zeigt sich bei der Entwicklung eines Interpretationsprogramms. Auch hier gibt es eine kontinuierliche Verbesserung und Erweiterung, was monotone Systeme vor Probleme stellt.

Monotone Systeme können zudem mit Ausnahmen nicht so einfach umgehen. Jede Regel hat bekanntlich Ausnahmen und ein nicht-monotones System kann damit wesentlich gezielter und einfacher umgehen.

Nicht-Monotonie in der Praxis

Wenn man regelbasierte Systeme vergleicht, sind m.E. für unsere Aufgaben nicht-monotone den monotonen eindeutig vorzuziehen. Zwar ist die Nicht-Monotonie kein leichtes Pflaster und weist einige Fallen und Knacknüsse auf, doch die einfache Modellierbarkeit auch von detailreichen und komplexen Gebieten spricht für das nicht-monotone Reasoning.


Nicht-Monotonie ist eine Eigenschaft von dynamischen Logiken. Mehr zum Thema Logik -> Übersichtsseite Logik


 

Informationsreduktion 2: Der drastische Trichter

Der Trichter der Informationsreduktion

Im vorhergehenden Beitrag Informationsreduktion 1 habe ich eine Kette der Informationsverarbeitung vom Patienten bis zur Fallpauschale (DRG) beschrieben:

Bei dieser Kette handelt es sich um einen Trichter, der die verfügbare Informationsmenge bei jedem Schritt reduziert. Das Ausmass der Reduktion ist drastisch. Stellen Sie sich vor, sie haben den Patienten vor sich. Um ihn zu beschreiben, können Sie z.B. die roten Blutkörperchen zählen. Es gibt 24–30 Billionen (= 24–30·1012 ) davon, jedes hat eine bestimmte Form, einen Ort im Körper, eine Bewegung zu einem bestimmten Zeitpunkt und eine bestimmte Menge an rotem Blutfarbstoff im Innern. Das ist in der Tat eine Menge Information. Natürlich wollen sie diese Details gar nicht alle wissen. In der Regel genügt es zu wissen, ob sich im Blutkreislauf genug roter Blutfarbstoff (Hämoglobin) findet. Nur wenn das nicht der Fall ist (bei Anämie), wollen wir mehr wissen. So reduzieren wir die Information über den Patienten und wählen nur das Nötige aus. Das ist sehr vernünftig – obwohl wir dabei Information verlieren.

Der Trichter, quantifiziert

Um das Ausmass der Informationsreduktion zu quantifizieren, habe ich in der oben stehenden Abbildung rechts bei jeder Stufe der Informationsverarbeitung die Anzahl der möglichen Zustände aufgeführt. Von unten her sind dies:

  • DRGs (Fallpauschalen): Es gibt unterschiedliche DRG-Systeme. Stets sind es aber ca. 1000 verschiedene Pauschalen, also 103 Zustände. Auf der Stufe Fallpauschale sind also 10verschiedene Zustände möglich. Dies ist die Information, welche auf dieser Stufe erhältlich ist.
  • Codes: Die ICD-10 Klassifikation bietet in der Schweiz ca. 20’000 verschiedene Codes an. Jeder Code entspricht einer Diagnose. Da  ein Krankenhaus-Patient in der Regel mehr als eine Diagnose hat, nehme ich als Näherung zwei Diagnosen an. Die Information kann also zweimal zwischen 20’000 Zuständen auswählen, das ergibt 400’000’000 = 4 x 108.
  • Texte: SNOMED, eine ausgedehnte medizinische Nomenklatur, enthält ca. 500’000 (5 x 105 )verschiedene Wörter. Da in einer Krankengeschichte viele Wörter vorkommen, ist die Informationsmenge hier natürlich sehr viel detailreicher. Meine Schätzung von 1015 ist hier gewiss untertrieben.
  • Wahrnehmung (Perception) und Realität: Ich verzichte auf eine Schätzung. Das oben genannte Beispiel mit den roten Blutkörperchen zeigt, was für riesige Informationsmengen in der Realität vorliegen.

Dieser Text zur Informationsreduktion wird fortgesetzt mit einem Beitrag zur Selektion. Eine solche ist immer dann nötig, wenn die Menge an Detaildaten unübersichtlich wird – also eigentlich immer.


Zum Thema Informationsreduktion finden Sie hier die Übersichtsseite.


 

Informationsreduktion 1: Kodierung

2 Arten von Kodierung

Im einem früheren Beitrag zur Kodierung habe ich zwei Arten von Kodierung beschrieben, die sich grundsätzlich unterscheiden. In der ersten Art wird versucht, die komplette Information der Quelle in die kodierte Form zu übertragen, in der zweiten Art wird bewusst darauf verzichtet. Es ist zweite, also die informationsverlierende Form, die uns besonders interessiert.

Als ich vor 20 Jahren in meinen Präsentationen auf diesen Unterschied hinwies und das Wort «Informationsverlust» prominent in meinen Folien auftauchte, wurde ich von meinen Projektpartnern darauf aufmerksam gemacht, dass das Wort bei den Zuhörern möglicherweise schlecht ankommt. Schliesslich wollen alle gewinnen, niemand will verlieren. Wie kann ich ein Produkt anpreisen, das den Verlust als Qualitätsmerkmal führt?

Nun, manchmal muss man über den Schatten springen und erkennen, dass gerade das, was man um jeden Preis zu vermeiden sucht, einen besonderen Wert hat. Und das ist bei der informationsverlierenden Kodierung mit Sicherheit der Fall.

Medizinische Kodierung

Unsere Firma spezialisierte sich auf die Kodierung von medizinischen Freitext-Diagnosen. Die Ärzte schreiben in die Krankengeschichten ihrer Patienten die Diagnose in Freitext und unser Programm las sie und ordnete ihnen automatisiert einen Kode zu. Dieser Kode (ICD-10) ist ein Standard mit nicht ganz 20’000 verschiedenen Kodes. Das klingt nach viel, die Zahl ist aber klein in Anbetracht der Milliarden von unterscheidbaren Diagnosen und Diagnoseformulierungen in der Medizin (siehe Beitrag). Der einzelne Kode kann natürlich nicht mehr Information enthalten als der Standard an dieser Stelle unterscheidet. In den Volltext-Diagnosen stand meist mehr und unsere Aufgabe war es, automatisiert die relevante Information aus den Freitexten zu ziehen, um den korrekten Kode zuzuweisen, was uns auch ganz gut gelang.

Die Kodierung ist Teil einer grösseren Kette

Doch die Kodierung ist nur ein Schritt. Einerseits geht die Kette der Informationsverarbeitung von den Kodes weiter zu den Fallpauschalen (DRGs), und andererseits sind die zu kodierenden Freitexte in den Krankengeschichte bereits Ergebnisse einer mehrstufigen Kette von früheren Informationsverarbeitungen und -reduktionen. Insgesamt liegt bei einem Krankenhausfall vom untersuchten Patienten bis zur Fallpauschale eine Kette mit folgenden Stufen vor:

  • Patient: Menge der im Patienten enthaltenen Information.
  • Arzt: Menge der Information über den Patienten, die der Arzt erkennt.
  • Krankengeschichte: Menge der Information, die der Arzt dokumentiert.
  • Diagnosen: Menge der Information, die in den Diagnosetexten steckt.
  • Codes: Menge der Information, die in den Diagnosecodes steckt.
  • Fallpauschale: Menge der Information die in der Fallpauschale steckt.

Bei jedem Schritt wird Information reduziert und die Informationsreduktion ist meistens drastisch. Es stellt sich die Frage, wie das funktioniert. Lässt die Reduktion automatisieren? Und wenn ja, wie?


Serie über Informationsreduktion

Mit diesem Beitrag starte ich eine Serie von Texten zum Thema Informationsreduktion, das in meinen Augen ein Schlüsselthema für das Verständnis von Information und unserem Umgang damit ist. Informationsreduktion ist so omnipräsent und alltäglich, dass wir sie leicht übersehen können.

Im nächsten Beitrag stelle ich dar, wie drastisch das Ausmass der Reduzierung sein kann.


Hier geht es zur Übersicht über die Beiträge zur Informationsreduktion.


 

Zwei Arten von Kodierung 2

Die beiden Arten von Kodierung in Mengendarstellungen

Ich möchte an den ersten Beitrag zu Zwei Arten von Codierung anschliessen und den Unterschied zwischen den beiden Arten von Kodierung mit Mengen-Diagrammen verdeutlichen, denn ich denke, dass der Unterschied für das Gebiet der Semantik und für die allgemeine Informationstheorie wichtig genug ist, um allgemein verstanden zu werden.

Informationserhaltende Kodierung

Den informationserhaltenden Typus der Kodierung, kann man mit folgendem Diagramm darstellen:

Mengendiagramm 1:1-Kodierung
Abb 1: Informationserhaltende Kodierung (1:1, alle Kodes erreichbar)

Links sei die ursprüngliche, rechts die kodierte Form. Der rote Punkt könnte links z.B. der Buchstabe A sein, rechts der Morsekode Punkt-Strich. Da es sich um eine 1:1 – Abbildung handelt, findet man von jedem Element rechts sicher wieder zum Ausgangselement links, vom Punkt-Strich des Morsecodes also wieder den Buchstaben A.

Mengendiagramm 1:1-Kodierung, nicht alle Kodes erreicht
Abb. 2: Informationserhaltende Kodierung (1:1, nicht alle Kodes erreichbar)

Eine 1:1 Kodierung ist natürlich auch dann informationserhaltend, wenn nicht alle Kodes benützt werden. Da die unbenutzten bei der Kodierung nie entstehen können, spielen sie gar keine Rolle. Von jedem für einen Kode benützten Element der Abbildungsmenge rechts gibt es genau ein Element der Ausgangsform. Der Kode ist dadurch ohne Informationsverlust reversibel, d.h. dekodierbar und die ursprüngliche Form kann für jeden entstehenden Kode verlustfrei wieder hergestellt werden.

Mengendarstellung: Informationserhaltende Kodierung (1:n)
Abb. 3: Informationserhaltende Kodierung (1:n)

Auch bei einer 1:n – Kodierung kann die ursprüngliche Form verlustfrei rekonstruiert werden. Ein Ursprungselement kann zwar auf verschiedene Weise kodiert werden, doch jeder Kode hat nur ein Ursprungselement. Somit kann der Ausgangswert zweifelsfrei wieder erreicht werden. Auch hier spielt es keine Rolle, ob alle möglichen Kodes (Elemente rechts) gebraucht werden oder nicht, da nicht verwendete mögliche Kodes nie erreicht und somit auch nicht rückübersetzt werden müssen.

Bei allen bisher dargestellten Kodierverhältnissen (1:1 und 1:n) kann die ursprüngliche Information wieder vollständig rekonstruiert werden. Dabei kommt es nicht darauf an, ob 1:1 oder 1:n, und ob alle möglichen Kodes verwendet werden oder manche auch frei bleiben. Wichtig ist nur, dass jeder Kode immer nur von einem Ursprungselement erreicht werden kann – mathematisch gesprochen handelt es sich bei den informationserhaltenden Kodierungen um linkseindeutige Relationen.

Informationsreduzierende Kodierung
Mengendiagramm: Informationsreduzierende Kodierung
Abb. 4: Informationsreduzierende Kodierung (n:1)

Hier gibt es nun in der Ausgangsmenge mehrere Elemente, die auf den gleichen Kode, d.h. auf das gleiche Element in der Menge der entstehenden Kodes zeigen. Dadurch kann die ursprüngliche Form später nicht mehr rekonstruiert werden. Der rote Punkt in der Abbildungsmenge rechts repräsentiert einen Kode für den es drei unterschiedliche Ausgangsformen gibt. Die Information über den Unterschied zwischen den drei Punkten geht dadurch rechts verloren und kann nicht mehr rekonstruiert werden. Mathematiker sprechen von einer Relation, die nicht linkseindeutig ist. Kodierungen von diesem Typ verlieren Information.

Dies Art Kodierung ist zwar weniger «sauber»,  trotzdem ist sie aber genau diejenige, die uns besonders interessiert, da sie in der Realität für viele Vorgänge typisch ist.