Alle Artikel von Hans Rudolf Straub

Informationsreduktion 2: Der drastische Trichter

Der Trichter der Informationsreduktion

Im vorhergehenden Beitrag Informationsreduktion 1 habe ich eine Kette der Informationsverarbeitung vom Patienten bis zur Fallpauschale (DRG) beschrieben:

Bei dieser Kette handelt es sich um einen Trichter, der die verfügbare Informationsmenge bei jedem Schritt reduziert. Das Ausmass der Reduktion ist drastisch. Stellen Sie sich vor, sie haben den Patienten vor sich. Um ihn zu beschreiben, können Sie z.B. die roten Blutkörperchen zählen. Es gibt 24–30 Billionen (= 24–30·1012 ) davon, jedes hat eine bestimmte Form, einen Ort im Körper, eine Bewegung zu einem bestimmten Zeitpunkt und eine bestimmte Menge an rotem Blutfarbstoff im Innern. Das ist in der Tat eine Menge Information. Natürlich wollen sie diese Details gar nicht alle wissen. In der Regel genügt es zu wissen, ob sich im Blutkreislauf genug roter Blutfarbstoff (Hämoglobin) findet. Nur wenn das nicht der Fall ist (bei Anämie), wollen wir mehr wissen. So reduzieren wir die Information über den Patienten und wählen nur das Nötige aus. Das ist sehr vernünftig – obwohl wir dabei Information verlieren.

Der Trichter, quantifiziert

Um das Ausmass der Informationsreduktion zu quantifizieren, habe ich in der oben stehenden Abbildung rechts bei jeder Stufe der Informationsverarbeitung die Anzahl der möglichen Zustände aufgeführt. Von unten her sind dies:

  • DRGs (Fallpauschalen): Es gibt unterschiedliche DRG-Systeme. Stets sind es aber ca. 1000 verschiedene Pauschalen, also 103 Zustände. Auf der Stufe Fallpauschale sind also 10verschiedene Zustände möglich. Dies ist die Information, welche auf dieser Stufe erhältlich ist.
  • Codes: Die ICD-10 Klassifikation bietet in der Schweiz ca. 20’000 verschiedene Codes an. Jeder Code entspricht einer Diagnose. Da  ein Krankenhaus-Patient in der Regel mehr als eine Diagnose hat, nehme ich als Näherung zwei Diagnosen an. Die Information kann also zweimal zwischen 20’000 Zuständen auswählen, das ergibt 400’000’000 = 4 x 108.
  • Texte: SNOMED, eine ausgedehnte medizinische Nomenklatur, enthält ca. 500’000 (5 x 105 )verschiedene Wörter. Da in einer Krankengeschichte viele Wörter vorkommen, ist die Informationsmenge hier natürlich sehr viel detailreicher. Meine Schätzung von 1015 ist hier gewiss untertrieben.
  • Wahrnehmung (Perception) und Realität: Ich verzichte auf eine Schätzung. Das oben genannte Beispiel mit den roten Blutkörperchen zeigt, was für riesige Informationsmengen in der Realität vorliegen.

Dieser Text zur Informationsreduktion wird fortgesetzt mit einem Beitrag zur Selektion. Eine solche ist immer dann nötig, wenn die Menge an Detaildaten unübersichtlich wird – also eigentlich immer.


Zum Thema Informationsreduktion finden Sie hier die Übersichtsseite.


 

Informationsreduktion 1: Kodierung

2 Arten von Kodierung

Im einem früheren Beitrag zur Kodierung habe ich zwei Arten von Kodierung beschrieben, die sich grundsätzlich unterscheiden. In der ersten Art wird versucht, die komplette Information der Quelle in die kodierte Form zu übertragen, in der zweiten Art wird bewusst darauf verzichtet. Es ist zweite, also die informationsverlierende Form, die uns besonders interessiert.

Als ich vor 20 Jahren in meinen Präsentationen auf diesen Unterschied hinwies und das Wort «Informationsverlust» prominent in meinen Folien auftauchte, wurde ich von meinen Projektpartnern darauf aufmerksam gemacht, dass das Wort bei den Zuhörern möglicherweise schlecht ankommt. Schliesslich wollen alle gewinnen, niemand will verlieren. Wie kann ich ein Produkt anpreisen, das den Verlust als Qualitätsmerkmal führt?

Nun, manchmal muss man über den Schatten springen und erkennen, dass gerade das, was man um jeden Preis zu vermeiden sucht, einen besonderen Wert hat. Und das ist bei der informationsverlierenden Kodierung mit Sicherheit der Fall.

Medizinische Kodierung

Unsere Firma spezialisierte sich auf die Kodierung von medizinischen Freitext-Diagnosen. Die Ärzte schreiben in die Krankengeschichten ihrer Patienten die Diagnose in Freitext und unser Programm las sie und ordnete ihnen automatisiert einen Kode zu. Dieser Kode (ICD-10) ist ein Standard mit nicht ganz 20’000 verschiedenen Kodes. Das klingt nach viel, die Zahl ist aber klein in Anbetracht der Milliarden von unterscheidbaren Diagnosen und Diagnoseformulierungen in der Medizin (siehe Beitrag). Der einzelne Kode kann natürlich nicht mehr Information enthalten als der Standard an dieser Stelle unterscheidet. In den Volltext-Diagnosen stand meist mehr und unsere Aufgabe war es, automatisiert die relevante Information aus den Freitexten zu ziehen, um den korrekten Kode zuzuweisen, was uns auch ganz gut gelang.

Die Kodierung ist Teil einer grösseren Kette

Doch die Kodierung ist nur ein Schritt. Einerseits geht die Kette der Informationsverarbeitung von den Kodes weiter zu den Fallpauschalen (DRGs), und andererseits sind die zu kodierenden Freitexte in den Krankengeschichte bereits Ergebnisse einer mehrstufigen Kette von früheren Informationsverarbeitungen und -reduktionen. Insgesamt liegt bei einem Krankenhausfall vom untersuchten Patienten bis zur Fallpauschale eine Kette mit folgenden Stufen vor:

  • Patient: Menge der im Patienten enthaltenen Information.
  • Arzt: Menge der Information über den Patienten, die der Arzt erkennt.
  • Krankengeschichte: Menge der Information, die der Arzt dokumentiert.
  • Diagnosen: Menge der Information, die in den Diagnosetexten steckt.
  • Codes: Menge der Information, die in den Diagnosecodes steckt.
  • Fallpauschale: Menge der Information die in der Fallpauschale steckt.

Bei jedem Schritt wird Information reduziert und die Informationsreduktion ist meistens drastisch. Es stellt sich die Frage, wie das funktioniert. Lässt die Reduktion automatisieren? Und wenn ja, wie?


Serie über Informationsreduktion

Mit diesem Beitrag starte ich eine Serie von Texten zum Thema Informationsreduktion, das in meinen Augen ein Schlüsselthema für das Verständnis von Information und unserem Umgang damit ist. Informationsreduktion ist so omnipräsent und alltäglich, dass wir sie leicht übersehen können.

Im nächsten Beitrag stelle ich dar, wie drastisch das Ausmass der Reduzierung sein kann.


Hier geht es zur Übersicht über die Beiträge zur Informationsreduktion.


 

Zwei Arten von Kodierung 2

Die beiden Arten von Kodierung in Mengendarstellungen

Ich möchte an den ersten Beitrag zu Zwei Arten von Codierung anschliessen und den Unterschied zwischen den beiden Arten von Kodierung mit Mengen-Diagrammen verdeutlichen, denn ich denke, dass der Unterschied für das Gebiet der Semantik und für die allgemeine Informationstheorie wichtig genug ist, um allgemein verstanden zu werden.

Informationserhaltende Kodierung

Den informationserhaltenden Typus der Kodierung, kann man mit folgendem Diagramm darstellen:

Mengendiagramm 1:1-Kodierung
Abb 1: Informationserhaltende Kodierung (1:1, alle Kodes erreichbar)

Links sei die ursprüngliche, rechts die kodierte Form. Der rote Punkt könnte links z.B. der Buchstabe A sein, rechts der Morsekode Punkt-Strich. Da es sich um eine 1:1 – Abbildung handelt, findet man von jedem Element rechts sicher wieder zum Ausgangselement links, vom Punkt-Strich des Morsecodes also wieder den Buchstaben A.

Mengendiagramm 1:1-Kodierung, nicht alle Kodes erreicht
Abb. 2: Informationserhaltende Kodierung (1:1, nicht alle Kodes erreichbar)

Eine 1:1 Kodierung ist natürlich auch dann informationserhaltend, wenn nicht alle Kodes benützt werden. Da die unbenutzten bei der Kodierung nie entstehen können, spielen sie gar keine Rolle. Von jedem für einen Kode benützten Element der Abbildungsmenge rechts gibt es genau ein Element der Ausgangsform. Der Kode ist dadurch ohne Informationsverlust reversibel, d.h. dekodierbar und die ursprüngliche Form kann für jeden entstehenden Kode verlustfrei wieder hergestellt werden.

Mengendarstellung: Informationserhaltende Kodierung (1:n)
Abb. 3: Informationserhaltende Kodierung (1:n)

Auch bei einer 1:n – Kodierung kann die ursprüngliche Form verlustfrei rekonstruiert werden. Ein Ursprungselement kann zwar auf verschiedene Weise kodiert werden, doch jeder Kode hat nur ein Ursprungselement. Somit kann der Ausgangswert zweifelsfrei wieder erreicht werden. Auch hier spielt es keine Rolle, ob alle möglichen Kodes (Elemente rechts) gebraucht werden oder nicht, da nicht verwendete mögliche Kodes nie erreicht und somit auch nicht rückübersetzt werden müssen.

Bei allen bisher dargestellten Kodierverhältnissen (1:1 und 1:n) kann die ursprüngliche Information wieder vollständig rekonstruiert werden. Dabei kommt es nicht darauf an, ob 1:1 oder 1:n, und ob alle möglichen Kodes verwendet werden oder manche auch frei bleiben. Wichtig ist nur, dass jeder Kode immer nur von einem Ursprungselement erreicht werden kann – mathematisch gesprochen handelt es sich bei den informationserhaltenden Kodierungen um linkseindeutige Relationen.

Informationsreduzierende Kodierung
Mengendiagramm: Informationsreduzierende Kodierung
Abb. 4: Informationsreduzierende Kodierung (n:1)

Hier gibt es nun in der Ausgangsmenge mehrere Elemente, die auf den gleichen Kode, d.h. auf das gleiche Element in der Menge der entstehenden Kodes zeigen. Dadurch kann die ursprüngliche Form später nicht mehr rekonstruiert werden. Der rote Punkt in der Abbildungsmenge rechts repräsentiert einen Kode für den es drei unterschiedliche Ausgangsformen gibt. Die Information über den Unterschied zwischen den drei Punkten geht dadurch rechts verloren und kann nicht mehr rekonstruiert werden. Mathematiker sprechen von einer Relation, die nicht linkseindeutig ist. Kodierungen von diesem Typ verlieren Information.

Dies Art Kodierung ist zwar weniger «sauber»,  trotzdem ist sie aber genau diejenige, die uns besonders interessiert, da sie in der Realität für viele Vorgänge typisch ist.

Zwei Arten von Codierung 1

Ein simpler Knochenbruch

Um im Gesundheitswesen Transparenz zu schaffen werden die medizinischen Diagnosen codiert. Dies ist nötig, weil die Diagnosen sehr unterschiedlich formuliert werden können. So kann ein Patient z.B. an Folgendem leiden:

– einem Armbruch
– einer distale Fraktur des Radius
– einer Radiusfraktur loco classico
– einer geschlossenen Extensionsfraktur am distalen Radius
– einem Bruch der Speiche links
– einem Knochenbruch am linken Unterarm
– einer Fx des dist. Radius li
– einer Colles-fracture

Alle obigen Ausdrücke können den gleichen Sachverhalt bezeichnen, einmal präziser formuliert, einmal weniger und mit unterschiedlichen Wörtern und Abkürzungen. Die Liste liesse sich noch lange fortsetzen. Ich habe mich während Jahrzehnten mit solchen Ausdrücken befasst und kann Ihnen versichern, dass es ohne Übertreibung Milliarden von unterschiedlichen, aber absolut korrekten Formulierungen für medizinische Diagnosen gibt.

Selbstverständlich entzieht sich dieser Wust von Freitexten einer statistischen Bearbeitung und deshalb werden die Diagnosen codiert. Häufig wird dabei der ICD (International Classification of Diseases) Code verwendet, der ja nach Variante zwischen 15’000 und 80’000 Codes umfasst. Zehntausende von Codes sind natürlich viele, aber in Anbetracht der Milliarden von möglichen Textformulierungen sind die ICD-Codes vergleichsweise überschaubar.

Wie die Interpretation der Texte automatisiert wird, sodass sie von einem Computerprogramm durchgeführt werden kann, ist übrigens eine hochspannende Angelegenheit.

Morsecode 

Ein Morsecode dient der Kommunikation in Fällen wo nur ganz einfache Signale gesendet werden können. Die Buchstaben des Alphabets werden vom Sender als Punkte und Striche codiert und so gesendet und vom Empfänger decodiert, also wieder in Buchstaben umgewandelt. So wird ein E zu einem Punkt und ein A zu einem Punkt, gefolgt von einem Strich. Der Vorgang der Codierung/Decodierung ist perfekt umkehrbar, die Abbildung ist eineindeutig.

Kryptographie

Auch hier soll der Code wieder in die ursprüngliche Form zurückübersetzt werden. Der Unterschied zum Morsecode besteht einzig darin, dass die Übersetzungsvorschrift nur einem kleinen Kreis bekannt sein soll und meist auch etwas komplizierter ist. Wie beim Morsecode soll die verschlüsselte Form aber die gleiche Information tragen wie die ursprüngliche Form.

Informationsreduktion

Morsecode und kryptographische Codes haben beide das Ziel, dass am Ende der Empfänger wieder die ursprüngliche Botschaft herstellen kann. Die Information soll unverändert bleiben, nur die äussere Form ändert sich.

Beim ICD-Code ist die Situation aber eine ganz andere. Es geht dabei nicht um die Wörter, die 1:1 austauschbar sind, wie z.B. im obigen Beispiel das Wort Radius und das Wort Speiche . Bei der ICD-Codierung geht es nicht um umkehrbare Abbildungen. Es geht vielmehr darum, dass Information bewusst unter den Tisch fällt und definitiv verloren geht. Die ICD-Codes sind Schubladen, die mit unterschiedlichen Diagnosen gefüllt werden.  Und das mit gutem Grund: Es gibt einfach zu viele Detaillierungen bei den Diagnosen. So kann eine Fraktur folgende voneinander unabhängige Charakteristika aufweisen:

– Name des betroffenen Knochens
– Stelle am betroffenen Knochen
– Zustand der Hautbarriere (offen/geschlossen)
– Gelenkbeteiligung (intraartikulär/extraartikulär)
– Richtung der Fehlstellung (Flexion, Extension …)
– Art der Bruchlinie (spiral, etc).
– Zahl und Art der Bruchfragmente (Monoblock, Trümmerfraktur)
– Ursache (Trauma, Tumor-Metastase, Ermüdung)
– u.v.m.

Alle diese Merkmale sind kombinierbar, was sich mathematisch als Multiplikation der Möglichkeiten präsentiert. Eine medizinische Statistik kann selbstverständlich nicht alle Kombinationsvarianten berücksichtigen, deshalb berücksichtigt der Diagnosecode nur wenige und die ICD kommt in Deutschland und der Schweiz mit weniger als 20’000 Schubladen für die gesamte Medizin zurecht. Welche Information die Schubladen berücksichtigen und welche nicht, ist ein wichtiges Thema, sowohl für die Akteure im Gesundheitswesen wie auch für uns, die wir uns informationstheoretische (und -praktische!) Überlegungen zum Codiervorgang machen.

Zwei Arten von Codierung

Ich halte den oben genannten Unterschied für bedeutsam. Einerseits haben wir Codierungen, die das Ziel haben, die Information zu erhalten und nur die Form zu ändern, so wie der Morsekode und kryptographische Verschlüsselungen. Andererseits haben wir Codierungen wie die medizinische Diagnosecodierung, deren Ziel es ist, die Menge an Information zu reduzieren. Der Grund dieser Informationsreduktion ist, dass die Ursprungsmenge an Information zu gross ist und sie zum Zweck der Übersichtlichkeit vereinfacht werden muss – meist drastisch. Informationsreduzierende Codierung verhält sich entscheidend anders als informationserhaltende.

Dieser Unterschied hat es in sich. Mathematische Modelle und wissenschaftliche Theorien, die für die informationserhaltende Codierung gelten, sind für die informationsreduzierende nicht verwendbar. Wir stehen hier informationstheoretisch vor einer ganz anderen Situation. Mehr dazu in Zwei Arten von Kodierung 2.


Die Informationsreduktion ist ein Vorgang, der bei realer Informationsverarbeitung häufig an entscheidender Stelle vorkommt. Einen Einstieg in das Thema Informationsreduktion finden Sie hier.

Themen der Website

Zu dieser Website

Ich beschäftige mich beruflich mit Algorithmen und Semantik, also mit verschiedenen Aspekten unseres Umgangs mit Information.

Das Thema Information

Obwohl IT eine grosse praktische Bedeutung in unserer Gesellschaft hat, sind es nur ganz bestimmte Aspekte davon, die ausgiebig thematisiert werden.  Informationen spielen in Technik und Wissenschaft eine grosse Rolle und können dort technisch-wissenschaftlich verarbeitet werden. Informationen spielen aber auch in ganz anderen Gebieten eine Rolle, z.B. in der Kunst und in der Philosophie. Welche Information ist z.B. in der Musik vorhanden. Was sagt die Philosophie zum Thema? Was die Sprache? Gibt es hier Verbindungen? Und wie sehen diese aus? Die Rolle von Information in Kunst und Geisteswissenschaften ist faszinierend und interessiert mich ganz besonders.

Auf dieser Website möchte ich grundsätzliche und verbindende Aspekte des Themas «Information» diskutieren. Im Hintergrund steht dabei mein Interesse an einer integralen Weltsicht. Meine These ist, dass alle diese Gebiete – Technik und Wissenschaft auf der einen und Kunst und Philosophie auf der anderen Seite – immer mit Information zu tun haben. Ein Generalist kann nicht alles gleichzeitig verstehen, aber er kann auf allen Gebieten das verstehen, was die Gebiete gemeinsam haben: ihren Umgang mit Information.

Dabei spielen gewisse Schlüsselbegriffe für mich eine wichtige Rolle:


Information und Künstliche Intelligenz

Die einen versprechen sich den entscheidenden Technologiesprung, die anderen fürchten, dass eine unfehlbare künstliche Intelligenz die Menschheit unterjochen könnte. Ich arbeite seit einem Vierteljahrhundert auf dem Gebiet wissensbasierter Systeme und wundere mich vor allem über eines: Dass wir diesen – zugegebenermassen sehr leistungsfähigen – Systemen überhaupt echte Intelligenz zubilligen.

Wo steckt denn die Intelligenz in der sogenannten KI wirklich? – Darüber schrieb ich eine Beitragsserie, welche die beiden grundsätzlichen Herangehensweisen an eine ‹künstliche› Intelligenz, die nämlich die regelbasierte und die korpusbasierte, vorstellt und ihre Unterschiede und Möglichkeiten beleuchtet.


Die Beitragsserie ist auch als Buch im ZIM-Verlag erschienen:

«Wie die Künstliche Intelligenz zur Intelligenz kommt»

Eine Übersicht über die Blogserie zur künstlichen Intelligenz finden Sie immer im Menu.


Drei-Welten-Theorie – mit Beispiel Tonleitern in der Musik

Zu diesen Überlegungen bin ich durch Roger Penrose inspiriert worden. Nach Sir Roger spielen für unsere Existenz drei auf den ersten Blick unabhängige Welten eine Rolle: die physikalische, die mathematisch und die subjektiv-mentale. Besonders spannend ist für mich dabei das Zusammenwirken der drei Welten, das ich mit Beispielen aus der Musiktheorie und von Ihnen selber nachvollziehbaren Experimenten erläutere.


Logodynamik

Viele denken, dass unsere abendländische Logik perfekt sei. Sie hat sich über viele Jahrhunderte um das Beweisen bemüht, angefangen von den Syllogismen des Aristoteles über die Gottesbeweisen der mittelalterlichen Scholastik bis hin zur First-Order-Logic der Mathematik in jüngerer Zeit.  Diese Systeme sind trotz ihres reifen Entwicklungsgrades nicht ausreichend, um die dynamischen Prozesse des Denkens abzubilden.

Dies fängt bereits mit dem einfachen IF-THEN an, das in den Syllogismen und der First-Order-Logic aus Prinzip statisch ist. Eine dynamische Logik ist jedoch unabdingbar, um Denkprozesse präzis zu beschreiben.


Informationsreduktion

Für ein reales System – also einen Menschen oder eine reale logische Maschine (Computer) – ist es nicht möglich, die Gesamtheit der relevanten Umgebungsinformation zu speichern. Die Gesamtmenge der Information muss deshalb notwendigerweise reduziert werden.  Informationsreduktion ist für reale Systeme nicht nur unvermeidlich, sondern ein typisches Charakteristikum, das alle alle reifen Informationssysteme auszeichnet, seien sie nun organisch (Biologie), technisch (KI) oder kulturell (Kunst und Gesellschaft).

Das Thema ‹Informationsreduktion› irritiert viele, doch wir befinden uns damit auf den Spuren von zwei bekannten Philosophen, nämlich Wilhelm von Ockham (Ockham’s Razor) und Sokrates (Ich weiss, dass ich nichts weiss).


Interpretierendes System

Die Theorie des interpretierenden Systems beschreibt die Art und Weise, wie ein System in seinem Innenraum Signale von aussen interpretiert.  Die Theorie hält fest, dass Informationsverarbeitung in der Realwelt immer innerhalb eines strukturierten Systems geschieht. Dieses System interpretiert die Informationen der Umgebung (Input) nach Regeln, die es in seinem Innenraum vorfindet. Natürlich muss das System dabei die Menge an Informationen, die es aus der Umgebung aufnimmt, immer wieder reduzieren und sich sinnvollerweise auf die Informationen, die für seine Ziele wichtig sind, konzentrieren. Diese Informationsreduktion ist ein aktiver Prozess innerhalb des interpretierenden Systems.


Buch: «Das Interpretierende System»

In den 90-er Jahren habe habe ich die Methode der Begriffsmoleküle entwickelt und sie anschliessend in einem Buch beschrieben. Begriffsmoleküle sind eine Methode, um Semantik formal darzustellen und Computerprogramme Freitexte interpretieren zu lassen. Aber auch wir Menschen interpretieren unsere Umwelt. Die Begriffsmoleküle versuchen, möglichst viel von diesem natürlichen Interpretationsvorgang in die formale Welt der Computer zu übertragen.

Das Buch besteht aus vier Teilen. Der erste beschreibt die Begriffsmoleküle, der zweite bringt eine Übersicht über einfache und komplexere Klassifikationssysteme (Begriffsarchitekturen), der dritte skizziert knapp die Vorgänge bei der semantischen Interpretation und der vierte und umfangreichste beschäftigt sich eingehend mit den Verhältnissen rund um das semiotische Dreieck.

Das Buch ist 2001 im ZIM-Verlag von Wolfram Fischer erschienen.

→  Mehr zum Buch


Semfinder AG

Hugo Mosimann und ich haben bei einem Lunch im Jahr 1997 beschlossen, eine Firma für semantische Expertensysteme zu gründen. Das Ziel war, die neue Methode der Begriffsmoleküle in einem NLP-Programm anzuwenden und als semantisches Interpretationsprogramm für die Kodierung von medizinischen Texten einzusetzen. Mit Maurus Duelli bekamen wir die kompetente unternehmerische Verstärkung, die es möglich machte, die Firma auch durch finanziell schwierige Zeiten zu steuern und unser Programm schliesslich in vielen hundert Krankenhäusern in Deutschland, der Schweiz, Österreich und Spanien einzusetzen. Im September 2016 haben wir das erfolgreiche Unternehmen an die Firma 3M übergeben, die den Standort, das Team und die Produkte weiterführt.


Danke

Bei der Gestaltung der Website hat mich Wolfram Fischer kompetent beraten und tatkräftig unterstützt!
Die englischen Übersetzungen stammen von  Rachel Waddington, Tony Häfliger and Vivien Blandford.
Vielen Dank allen, die mir bei der Gestaltung der Website so gut geholfen haben!

Welche Information trägt ein Bit?

Die Frage erscheint Ihnen vermutlich banal. Schliesslich weiss jedermann, was ein Bit ist, nämlich die Möglichkeit einmal aus zwei Zuständen auszuwählen.

Wo ist das Problem?

Ich möchte zu bedenken geben, dass die Frage nach der Information im Bit damit noch nicht beantwortet ist. Welche Information in einem Bit enthalten ist, hat nämlich auch mit der Frage zu tun, welche zwei Zustände überhaupt zur Auswahl stehen. Klassische Beispiele sind:

– 0 und 1
– Wahr und Falsch
– Positiv
und Negativ
– Ein
und Aus

Selbstverständlich erschöpft sich die Auswahl dadurch nicht. Auch männlich/weiblich, innen/aussen, gut/schlecht oder beliebige andere binäre Paare können in einem Bit stecken, genauso wie ihre jeweiligen Umkehrungen, also neben 0/1 genauso auch 1/0.

Woher weiss das Bit, welche beiden Zustände es anbietet?

Vielleicht denken Sie, dass dies einfach eine Sache im Bit sei. Das eine Bit enthält 0/1 als Paar und das andere Bit Wahr/Falsch. Die beiden Zustände wären somit natürliche Eigenschaften der jeweiligen individuellen Bits. Das trifft jedoch nicht zu, denn der Hersteller eines Chips hat die Bits des Chips nicht mit individuellen Eigenschaften versehen. Technisch gesehen sind die Bits alle genau gleich, ihre Simplizität und Neutralität macht ja gerade den Charme der binären Technologien aus.

Erst wenn im Computer ein Programm abläuft, werden den neutralen Bits individuelle Wertpaare wie 0/1, Wahr/Falsch usw. zugeordnet. Der Charakter, d.h. die eigentliche Bedeutung der beiden Zustände, wird erst durch das Programm in das Bit hineingelegt.

Das ist natürlich praktisch, weil so je nach Programm dem gleichen Bit im Chip eine immer wieder neue Bedeutung gegeben werden kann. Allerdings müssen wir jetzt zugeben, dass die Bedeutung nicht mehr im Bit steckt, sondern im aufrufenden Programm, mithin in ganz anderen Bits, nämlich denen des Programms.

Woher aber haben diese Bits wiederum ihre Bedeutung? Bei denen verhält es sich natürlich genau gleich, auch ihnen werden erst von aussen konkrete Wertepaare zugeordnet. Es geht also immer weiter nach aussen, und immer kann die Bedeutung des Wertepaares eines Bits nur mit weiteren Bits von aussen geschrieben werden – mit anderen Worten: Es handelt sich einen unendlichen Regress, jedes Bit, das ein anderes erklärt, muss erneut erklärt werden.

Wo ist das Ende der Kette?

Die Suche nach den Bits, mit denen man die anderen Bits erklären kann, findet somit nie ein Ende. Das ist die Natur eines unendlichen Regresses. Doch wir haben trotzdem eine Chance, das Ende des Regresses zu finden. Die Suche ist nämlich nur solange hoffnungslos, wie wir innerhalb des Computers bleiben. Als Mensch jedoch können Sie über den Computer hinausdenken. Das Programm ist ja zu einem bestimmten Zweck geschrieben worden und Menschen, Programmierer und Anwender, legen fest, welche Bedeutungen die Bits jeweils haben sollen. Die Bedeutung, und damit die konkreten individuellen Wertpaare der Bits entstehen am Ende des Regresses – offline – als Abmachung in den Köpfen der Menschen.

Allerdings sind wir auf diese Weise aus der Welt der Bits herausgerutscht, und meine Behauptung ist, dass es anders nicht geht. Solange wir in der Welt der Bits bleiben, bleiben wir in einer zwar präzisen, doch völlig „unbedeutenden“ Welt. Diese erlangt ihre Bedeutung erst, wenn wir den einzelnen Bits von aussen eine Bedeutung geben. Das heisst, wir verbinden ein bestimmtes Bit mit einer Information, die uns als Menschen etwas sagt. So lässt sich der unendliche Regress auflösen.

Isoliert gesehen, sind die beiden Zustände des Bits vollständig neutral und lassen sich deshalb mit beliebigen Bedeutungen belegen. Technisch gesehen ist das genial. Doch dürfen wir uns dadurch nicht verleiten lassen, mit Bits allein bedeutungstragende Information generieren zu können. Es braucht immer ein Aussen, das den Bits die Bedeutung zuweist.

Wir haben somit zwei Arten von Information:

A) Das isolierte Bit:
Dieses sagt aus, welcher der beiden Zustände des Bits gewählt wird, ohne die Zustände selber zu beschreiben. Es handelt sich um das technische Bit der konventionellen Informationstheorie.

B) Die dem Bit zugedachte Bedeutung:
Diese Information sagt aus, worum es beim Bit geht, welche beiden Zustände es sind, die mit dem Bit gewählt werden können. Es handelt sich um die qualitative Information, die mit dem Bit ausgedrückt werden kann. Obwohl wir sie dem Bit selber zuordnen, verschwindet sie, sobald wir das Bit isoliert betrachten.

Die beiden Arten von Information sind von prinzipiell unterschiedlicher Natur. Trotz oder gerade wegen ihrer unterschiedlichen Natur gehören sie zusammen. Erst ihre Kombination macht eine sinnvolle, das heisst bedeutungstragende Information aus.


Mehr zum Thema Information -> Übersichtsseite Informationstheorie


 

Semantik und Linguistik

Was ist Semantik?

Eine einfache und gut verständliche Antwort ist, dass Semantik die Bedeutung von Signalen ist. Wenn wir uns mit Semantik beschäftigen, untersuchen wir also, welche Bedeutungen hinter den Signalen stecken.

Die Signale können in irgendeiner Form vorliegen, als Text, als Bild usw. Am häufigsten wird die Semantik von Wörtern gesucht. Unsere hoch entwickelte Sprache unterscheidet uns Menschen von den Affen und gibt uns die Möglichkeit, komplexe und abstrakte Denkinhalte in Wörter zu fassen. Diese Denkinhalte sind die Semantik, d.h. die Bedeutungen, die wir in Wörter fassen (codieren) und aus den Wörtern herauslesen (decodieren).

Offensichtlich besteht ein enger Zusammenhang zwischen Wörtern und ihrer Semantik, so eng, dass Semantik oft als Teil der Sprachwissenschaft angesehen wird. Ein guter Grund also, das Verhältnis der Sprachwissenschaft (Linguistik) zur Semantik zu untersuchen.

Linguistik und Semantik

Linguistik als Lehre von Sprache und Sprachen hat schon immer die Grammatiken der Sprachen untersucht. Wenn die Grammatik (Syntax) eines Satzes verstanden ist, sehen die Linguisten zwei weitere Aufgaben, nämlich als nächstes die Semantik des Satzes und als drittes seine Pragmatik zu untersuchen. Bei der „Semantik“ geht es ihnen um die Bedeutung der Wörter und Sätze, bei der „Pragmatik“ um das „Warum“ einer Aussage, also um den grösseren Zusammenhang.

Der Dreischritt der Linguisten

Es gibt somit in den Augen der Linguisten einen Dreischritt beim Verstehen von Sprache: Syntax -> Semantik -> Pragmatik. Diese drei Aufgaben werden von den Linguisten ganz unterschiedlich gewichtet: ein konventionelles Lehrbuch behandelt vorwiegend Fragen der Syntax, während Semantik und Pragmatik nur am Rand vorkommen – und stets auf der Basis der vorher durchgeführten Syntaxanalyse. Die Syntaxanalyse der Linguisten stellt somit bereits die Weichen für das, was darauf aufbaut, nämlich Semantik und Pragmatik.

Das ist für die Semantik nicht wirklich ideal. Wenn man sich näher mit Semantik befasst, wird klar, dass Grammatik und andere Eigenheiten der jeweiligen Sprachen Äusserlichkeiten darstellen, welche den Kern der Aussagen – ihre Bedeutung – zwar auf gelegentlich sehr elegante Weise umschreiben, aber eben nur umschreiben und nicht vollständig und schon gar nicht direkt repräsentieren. Eine direkte formale Darstellung des mit dem Text Gemeinten wäre aber für eine wissenschaftliche Semantik das eigentliche Ziel.

Ist das Ziel erreichbar? Wir müssen uns als erstes über das Verhältnis von Wörtern und Begriffen klar werden – Wörter und Begriffe sind nicht dasselbe! Begriffe sind die Grundelemente der Semantik und sie haben einen speziellen, aber nicht ganz einfachen Bezug zu den Wörtern der Sprache.

Wort nicht gleich Begriff

Man könnte leichtfertig annehmen, dass eine 1-zu-1-Beziehung zwischen Wörtern und Begriffen besteht, dass also hinter jedem Wort ein Begriff steht, der zusammenfasst, was die Bedeutung des Wortes ist. Doch genau dies ist falsch. Wörter und Begriffe lassen sich nicht eindeutig aufeinander abbilden. Dass das so ist, kann jeder selbst erkennen, der sich beim Lesen, Sprechen und Denken beobachtet.

Es ist offensichtlich, dass ein Wort mehrere Bedeutungen haben kann, je nachdem in welchem Zusammenhang es gesprochen wird. Ein Wort kann gelegentlich auch gar keine Bedeutung haben, z.B. wenn es ein Fachwort ist und ich das Gebiet nicht kenne. Dann kann ich das Wort zwar nachsprechen, aber es bleibt für mich bedeutungsleer. Das Wort hat für mich somit keinen Begriff. Trotzdem kann es jemand verstehen, der das Sachgebiet versteht.

Bedeutung hat viel mit dem Empfänger zu tun

Wenn wir über diesen Sachverhalt noch etwas länger nachdenken, wird uns klar, dass Fachwörter wie Zitronensäurezyklus oder II-V-I-Progression für die meisten Leute keine Bedeutung haben. Aber nicht nur Fachwörter, auch ganz normale Wörter, die wir alle kennen, haben keine sichere, eindeutige Bedeutung, sondern können je nach Zuhörer oder Kontext eine jeweils leicht unterschiedliche Vorstellung (Bedeutung) hervorrufen. Dabei handelt es sich nicht nur um abstrakte Wörter oder Wörter mit wechselnden Wertvorstellung, wie Glück, Demokratie, Wahrheit usw., auch ganz konkrete Begriffe wie Hund, Wasser, Haus werden von verschiedenen Menschen verschieden bewertet.

Bedeutungen variieren

Auch in uns selber existieren für das gleiche Wort ganz unterschiedliche Vorstellung, je nach Situation verbinden mit dem gleichen Wort wir unterschiedliche Vorstellungen.

Umgekehrt kann die gleiche Vorstellung mit ganz unterschiedlichen Wörtern belegt werden. So können das deutsche Tisch und das englische table problemlos für die gleiche Vorstellung, den gleichen Begriff verwendet werden. Ganz problemlos ist die Geschichte aber nicht: Tisch und table sind keineswegs Synonyme: Zum Beispiel meint das englische table auch Tabelle, das deutsche Tisch aber nicht. Weitere Beispiele für die Inkongruenz von Wort und Begriff kann leicht jeder selber finden.

Semantik untersucht das Spiel der Bedeutungen

Wir müssen akzeptieren, dass ein Wort und ein Begriff sich nicht so einfach auf einander abbilden lassen. Obwohl es im Einzelfall durchaus so scheinen kann, als stünde hinter jedem Wort genau ein Begriff (eine Semantik), ist dies in Wirklichkeit eine völlig unangebrachte Vorstellung. Und diese verhindert, dass das Spiel der Bedeutungen korrekt verstanden wird. Doch genau dieses Spiel der Bedeutungen ist es, das m.E. die Semantik als Wissensgebiet ausmacht.


Dies ist ein Beitrag zum Thema Semantik.


Selbstreferentialität 2 (Paradoxie)

(Fortsetzung von „Selbstreferentialität 1“)

Anweisung zur Generierung von Paradoxien

Der Trick mit dem sich klassische logische Systeme sprengen lassen besteht aus zwei Anweisungen:

1: Eine Aussage beziehe sich auf sich selber.
2: Im Bezug oder in der Aussage gibt es eine Verneinung.

Durch diese Konstellation entsteht immer eine Paradoxie.

Ein berühmtes Beispiel dafür ist der Barbier, der alle Männer des Dorfes rasiert, ausser natürlich diejenigen, die sich selber rasieren (die haben es ja nicht nötig). Die formale Paradoxie entsteht durch die Frage, ob dieser Barbier sich selber rasiert. Falls er es tut, gehört er zu den Männern, die sich selber rasieren, und diese rasiert er wie gesagt nicht. Also rasiert er sich nicht. Somit gehört er zu den Männern, die sich nicht selber rasieren – und diese rasiert er.

Auf diese Weise wechselt der Wahrheitsgehalt der Aussage, ob er sich selber rasiert, dauernd zwischen WAHR und FALSCH hin und hier. Diese Oszillation ist typisch für alle echten Paradoxien, so z.B. auch für den lügenden Kreter oder den formalen Beweis in Gödels Unvollständigkeitssatz, auch dort oszilliert der Wahrheitsgehalt einer Aussage kontinuierlich zwischen wahr und falsch und ist somit nicht entscheidbar. Im Barbierbeispiel sind neben der typischen Oszillation auch klar die oben erwähnten beiden Bedingungen für die echte Paradoxie erkennbar:

1. Selbstreferentialität: Rasiert er SICH SELBER?
2. Verneinung: Er rasiert sich selber rasierende Männer NICHT.

An dieser Stelle kann auf Spencer-Brown verwiesen werden, der einen Kalkül entwickelt hat, mit dem sich diese Verhältnisse klar zeigen lassen. Der Kalkül wird in seinem Text „Laws of Form“ dargestellt. Wer sich dafür interessiert, dem sei das Buch „Die Form der Paradoxie“ von Felix Lau empfohlen, das nicht nur den Kalkül für uns Laien nachvollziehbar macht, sondern sich auch sehr intensiv mit den Konsequenzen dieser Art Paradoxie beschäftigt.

Unechte Paradoxien

Diesen „klassischen“ Paradoxien möchte die „unechten“ Paradoxien gegenüberstellen, z.B. die „Paradoxie“ von Achilles und der Schildkröte. Hier handelt es sich nicht um echtes logisches Problem wie beim Barbier, sondern um den Fehler eines inadäquat gewählten Modells. Die Zeiten und Strecken, die die beiden Konkurrenten rennen, werden nämlich immer kürzer und nähern sich einem Wert, der innerhalb des gewählten Modells nicht überschritten werden kann. Somit kann Achilles die Schildkröte im Modell nicht überholen. In der Realität besteht aber kein Grund, dass die Zeiten und Strecken derart verzerrt und nicht linear betrachtet werden.

Die Unmöglichkeit zu überholen, besteht nur im Modell, das auf eine raffinierte Weise falsch gewählt ist. Ein Messsystem, das auf diese Weise verfälscht, ist natürlich nicht zulässig. Es handelt sich in Wirklichkeit nur um eine perfide Modellwahl, nicht um eine wirkliche Paradoxie. Entsprechend sind die beiden Kriterien für echte Paradoxa auch nicht vorhanden.

Modellwahl

Das Beispiel von Achilles und der Schildkröte zeigt die Bedeutung der korrekten Modellwahl. Die Modellwahl findet stets ausserhalb der Darstellung der Lösung statt und ist nicht Gegenstand eines logischen Beweises. Die Modellwahl hat vielmehr mit dem Bezug der Logik zur Realität zu tun. Sie findet auf einer übergeordneten Metaebene statt.

Mein Postulat ist es nun, dass zum Gebiet der Logik unbedingt auch die Modellwahl und nicht nur das Kalkül innerhalb des Modells gehört. Wie wählen wir ein Modell? Wenn Logik die Lehre vom richtigen Denken ist, dann muss diese Frage von der Logik mit behandelt werden.

Rolle der Metaebene für Modellwahl und Paradoxie

Das Zusammenwirken von zwei Ebenen, nämlich einer betrachteten Ebene und einer übergeordneten, betrachtenden Metaebene spielt nicht nur bei der Modellwahl, welche stets auf der Metaebene stattfindet, eine Rolle, sondern auch in der Form der echten Paradoxie. Die Selbstreferentialität in der echten Paradoxie führt nämlich unweigerliche die beiden Ebenen ein.

Eine Aussage, die sich auf sich selber bezieht, existiert zweimal, einmal auf der betrachteten Ebene, auf der sie quasi das „Objekt“ ist, das andere Mal auf der Metaebene, auf der sie sich auf sich selber bezieht. Die Oszillation der Paradoxie entsteht durch einen „Loop“, d.h. durch einen Kreisprozess zwischen den beiden Ebenen, dem das logische System nicht entrinnen kann.

Oszillierender Loop der Paradoxie, Selbstreferentialität und „Metasprung“

Es gibt übrigens zwei Arten solcher Loops, wie Felix Lau in seinem Buch aufzeigt: – eine negative (mit Verneinung), die zur Paradoxie führt – eine positive (mit Bestätigung), die zu einer Tautologie führt. Mit anderen Worten: Selbstreferentialität in logischen Systemen ist immer gefährlich! Es lohnt sich, zur Vermeidung, bzw. zur korrekten Behandlung von Paradoxien in logische Systeme den „Metasprung“ einzuführen – dieser ist der Bezug zwischen der betrachteten Ebene und der betrachtenden Metaebene.


Selbstreferentialität bringt klassische logische Systeme wie FOL oder Boolsche Algebra zum Absturz.

Mehr zum Thema Logik -> Übersichtsseite Logik


 

Selbstreferentialität 1

In den 80-er Jahren las ich fasziniert Douglas Hofstadters Kultbuch „Gödel-Escher-Bach“. Zentral darin ist Gödels Unvollständigkeitssatz. Dieser Satz zeigt eine (die?) Grenze für die klassische mathematische Logik auf, und Gödel bewies sie 1931 zusammen mit der Tatsache, dass sie prinzipiell für alle klassischen mathematischen Systeme unüberwindbar ist.

Das ist schon erstaunlich – insbesondere, da wir als Kinder der Aufklärung und überzeugte Jünger der Ratio nichts für stabiler und sicherer ansehen als die Gesetze der Mathematik.


Hofstadters Buch hat jedenfalls einen enormen Eindruck auf mich ausgeübt. Allerdings hatte ich an gewissen Stellen, z.B. beim Thema der „Kodierung“ von Information den Eindruck, dass hier bestimmte Aspekte durch den Autor sehr vereinfacht werden. Bei einem Erkennungsvorgang bei dem Information aufgenommen wird, spielt m.E. die Art des Einbaus in das interpretierende System eine grosse Rolle. Das einbauende System ist dabei durchaus aktiv und entscheidet mit. Eine Information ist vor und nach dem Einbau nicht genau dieselbe. Hat hier der Interpret, d.h. das aufnehmende (kodierende) System keinen Einfluss? Und wenn doch, welchen?

Zusätzlich erschien mir der Aspekt der „Zeit“ nicht genügend berücksichtigt, Informationsverarbeitung findet in der realen Welt jedenfalls immer innerhalb einer gewissen Zeit statt. Dabei gibt es ein Vorher und ein Nachher und ein aufnehmendes System wird dadurch auch verändert. Zeit und Information sind m.E. untrennbar miteinander verbunden, hier schien mir Hofstadter etwas zu verpassen.


Meine Rezeption von Hofstadter wurde weiter herausgefordert durch Hofstadters Einordnung als Vertreter der „starken KI“. Die „starke KI“-Hypothese besagt, dass menschliches Denken, ja menschliches Bewusstsein, durch Computer auf Basis von mathematischer Logik simuliert werden könne, eine Hypothese, die mir damals – und auch heute – reichlich gewagt erscheint.

Roger Penrose soll zu seinem Buch „Emperor´s New Mind“ durch eine BBC-Sendung provoziert worden sein, in der Hofstadter, Dennett und andere begeistert die starke KI-These vertreten haben, die Penrose offensichtlich nicht teilen mag. Ich wie gesagt auch nicht.

Aber natürlich sind Frontlinien nie so einfach. Obwohl ich sicher nicht auf der Seite der starken KI stehe, bleibt mir Hofstadters Vermittlung von Gödels Unvollständigkeitssatz als einer zentralen Erkenntnis der Wissenschaft des 20. Jahrhunderts doch unvergesslich. Mit Begeisterung las ich auch das Interview mit Hofstadter, das diesen Frühling im Spiegel erschien (DER SPIEGEL 18/2014: „Sprache ist alles“). Darin postuliert er u.a. dafür, dass Analogien im Denken von Wissenschaftlern entscheidend seien und er grenzt seine Interessen von denen der profitorientierten IT-Industrie ab. Gedanken, denen man sich sehr wohl anschliessen mag.


Doch zurück zu Gödel. Was ist – in Laiensprache – der Trick in Gödels Unvollständigkeitssatz?

Der Trick besteht darin, einen Satz, eine logische Aussage …

1. auf sich selber zu beziehen
2. sie dann zu verneinen.

Das ist der ganze Trick. Mit dieser Kombination lässt sich jedes klassische formale System sprengen.

Ich fürchte, ich muss dies näher erläutern …

(→ „Selbstreferentialität 2“)


Selbstreferentialität bringt klassische logische Systeme wie FOL oder Boolsche Algebra zum Absturz.

Mehr zum Thema Logik -> Übersichtsseite Logik


 

Semantik, der blinde Fleck

Wohin gehört die Semantik?

Wenn Semantik als Wissenschaftsthema eingeordnet werden soll, bieten sich z.B. folgende Fächer an:

a) Linguistik
b) Informationstheorie
c) Mathematik
d) Psychologie
e) Philosophie

Die breite Auswahl zeigt, dass eine Zuordnung nicht selbstverständlich ist. Vielleicht haben ja alle diese Fächer recht, Semantik auf ihre Weise zu behandeln. Ich plädiere aber dafür, Semantik als ein eigenes Gebiet zu betrachten, mit eigenen Problemstellung und Lösungen und insbesondere auch mit eigenen formalen Methoden. Diese bauen nicht auf linguistischen oder mathematischen Methoden auf, sondern nehmen solche gegebenenfalls für klar definierte Aufgaben zu Hilfe, so wie die Physik mathematische Methoden zu Hilfe nimmt.

Semantik als eigenes Fachgebiet

Wenn Semantik als Bedeutung von Wörtern oder Daten definiert wird, so ist klar, dass die Wörter in jedem Fachgebiet ihre eigene Bedeutung, d.h. ihre eigene Semantik haben. Diese aber ist die Semantik des Fachgebietes und nicht die Semantik als Fachgebiet selber. Semantik als Fachgebiet hat mit der Darstellung und dem Prozessieren von Bedeutungen zu tun.

Wir haben somit zwei verschiedene Ebenen:

  •  Die Bedeutungen des Gegenstände des jeweiligen Fachgebietes
  • Die Methode, mit welcher die Bedeutungen dargestellt werden (also eine Art Metaebene)

Es ist klar, dass nur letzteres das Fachgebiet der Semantik selber darstellen kann.

Der blinde Fleck

Im Auge werden die eingehenden Lichtstrahlen auf der Netzhaut abgebildet. Die über die ganze Netzhaut verstreuten Signale werden in einem eng umschriebenen Gebiet gebündelt, wo sie in den Sehnerv eintreten. An diesem Ort sehen wir nichts, da eintreffende Lichtsignale dort keine Lichtrezeptoren vorfinden, weil dieses Gebiet bereits vollständig von der Infrastruktur der Weiterleitung, dem Sehnerv,  beansprucht wird. Bemerkenswerterweise fällt uns die Blindheit an dieser Stelle nicht auf. Sobald wir nämlich einen Gegenstand ansehen wollen, der sich an dieser Stelle befindet, fokussieren wir ihn. Das bedeutet, dass wir das Auge so bewegen, dass wir den anvisierten Gegenstand nun neu an der Stelle des schärfsten Sehens haben. Der blinde Fleck fällt uns dadurch nicht mehr auf. Wir sind an dieser Stelle doppelt blind. Der blinde Fleck  ist nicht nur blind, weil wir dort nichts sehen, wir sind darüber hinaus blind bezüglich der Tatsache, dass wir dort nichts sehen.

Bei der Semantik ist es genau gleich. Sie taucht in jedem Fachgebiet auf, um die Gegenstände des Fachgebiets zu beschreiben, gehört aber selber nicht zum Fachgebiet. Sie spielt also immer eine Rolle, aber man sieht sie nicht.

Soviel zum blinden Fleck – und weshalb wir Probleme haben, Semantik als solche, d.h. als eine Methode der Beschreibung von Bedeutung zu erkennen.

Dieser Beitrag ist fortgesetzt in: Und aussen war das Wort (1)


Dies ist ein Beitrag zum Thema Semantik.