Entropie (Teil 2)

Die zwei Ebenen: Mikro und Makro

Zwei Ebenen definieren die Entropie

Die schulmässige physikalische Definition der Entropie weist diese als eine Differenz zwischen zwei Ebenen aus: einer Detail- und einer Übersichtsebene.

Beispiel Kaffeetasse

Klassisch ist die thermale Entropie nach Boltzmann, am Beispiel eines idealen Gases. Die Temperatur (1 Wert) ist direkt verbunden mit den Bewegungsenergien der einzelnen Gasmoleküle (1023 Werte). Mit gewissen Anpassungen gilt das für jedes materielle Objekt, z.B. auch für eine Kaffeetasse:

  1. Thermischer Makrozustand: Temperatur der Flüssigkeit in der Tasse.
  2. Thermischer Mikrozustand: Bewegungsenergie aller einzelnen Moleküle in der Tasse

Die Werte von a) und b) sind direkt verbunden. Die Wärmeengergie der Flüssigkeit, die sich in der Temperatur des Kaffees äussert, setzt sich zusammen aus den Bewegungsenergien der vielen (~ 1023) einzelnen Moleküle in der Flüssigkeit. Je schneller sich die Moleküle bewegen, umso heisser ist der Kaffee.

Die Bewegung der einzelnen Moleküle b) ist jedoch nicht konstant. Vielmehr stossen sich die Moleküle andauernd und ändern dabei ihre Geschwindigkeit und damit auch ihre Energie. Trotzdem ist die Gesamtenergie nach jedem Stoss die gleiche. Wegen dem Energiesatz ändert sich bei jedem Stoss zwar die Energie der beteiligten Moleküle, die Energie aller beteiligten Moleküle zusammen bleibt aber erhalten. Auch wenn der Kaffee langsam abkühlt, oder wenn die Flüssigkeit von aussen erhitzt wird, bleibt der Zusammenhang erhalten: Der einzelne Übersichtswert (Temperatur) und die vielen Detailwerte (Bewegungen) hängen immer gegenseitig voneinander ab.

Beispiel Wald und Bäume

Das bekannte Sprichwort warnt, vor lauter Bäumen den Wald nicht mehr zu sehen.

Wald: Makroebene

Wald: Mikroebene

Auf der Mikroebene sehen wir die Details, auf der Makroebene erkennen wir das grosse Ganze.

Welche Sicht ist nun besser? Die auf den Wald oder auf die Bäume?

  • Sowohl Makroebene wie Mikroebene sind sinnvoll – je nach Aufgabe
  • Beides bezieht sich auf das gleiche Objekt.

Beides ist nicht im gleichen Moment zu sehen:

  • Sieht man die Bäume, verpasst man den Wald
  • Erkennt man den Wald, sieht man nicht alle einzelnen Bäume

Generell glauben wir, dass es besser sei, alle Details zu kennen. Doch das ist eine Täuschung. Wir brauchen immer wieder die Übersicht. Und wir würden uns verlieren in den Details.

Wo ist nun die Entropie?

Wir können nun alle Details der Mikrosicht aufzählen und erhalten so den Informationsgehalt – z.B. in Bits – des Mikrozustandes. Von diesem können wir den viel kleineren Informationsgehalt der Makrosicht abzählen. Die Differenz, die wir erhalten ist die Entropie, nämlich die Information, die im Mikrozustand (Bäume) vorhanden ist, im Makrozustand (Wald) aber fehlt. Die Differenz ist die Entropie.

Warum ist nicht der Informationsgehalt auf der Mikroebene die absolute Entropie?

Der Informationsgehalt auf der Mikroebene lässt sich in Bits berechnen. Entspricht diese Bitmenge der Entropie? Dann wäre der Informationsgehalt auf der Makroebene einfach eine Reduktion der Information. Die eigentliche Information würde dann in der Mikroebene der Details stecken.

Das ist die spontane Erwartung, die ich bei Gesprächspartnern immer wieder antreffe. Sie nehmen an, dass es einen absoluten Informationsgehalt gibt, und der ist in ihren Augen selbstverständlich derjenige mit der grössten Menge an Details.

Das Problem dabei ist: Ds ‹tiefste› Mikrolevel ist gar nicht eindeutig definiert. Die Bäume sind bezogen auf den Wald das tiefere Informationslevel – doch damit ist nicht die tiefste Detailebene erreicht. Man kann die Bäume auf ihre Bestandteile hin – Aste, Zweige, Blätter, Würzeln, Stamm, Zellen usw. – beschreiben, was zweifellos ein tieferes Level ist und noch mehr Details enthalten würde. Doch auch dieses Level wäre nicht tief genug. Wir können durchaus noch tiefer in die Details gehen, und die verschiedenen Zellen des Baumes beschreiben, die Organellen in den Zellen, die Moleküle in den Organellen usw. Wir würden dann weiter bei der Quantenebene ankommen. Doch ist das die tiefste? Vielleicht, doch sicher ist das nicht. Und je weiter wir in die Details gehen, umso mehr entfernen wir uns von der Beschreibung des Waldes. Was uns interessiert ist die Beschreibung des Waldes und dafür ist das tiefste Level gar nicht nötig. Wir tiefer unten wir es suchen, umso mehr entfernen wir uns von der Beschreibung unseres Objekts.

→ Die Tiefe des Mikrolevels ist nicht eindeutig definiert !

Wir können deshalb für unsere Betrachtung nicht von einer eindeutigen absoluten Entropie eines bestimmten Objekts ausgehen. Weil das Mikrolevel beliebig tief ansetzbar ist, ändert sich auch die Entropie, d.h. der quantitative Informationsgehalt auf dieser Ebene. Je tiefer, umso mehr Information, umso höher die Entropie.

Gibt es ein absolutes Makrolevel?

Wie das Mikrolevel ist auch das höchste Informationslevel, z.B. eines Waldes, nicht eindeutig definiert.

Ist dieses Makrolevel das Bild, das eine optische Sicht auf den Wald darstellt, wie es ein über ihm fliegender Vogel sieht? Oder ist des die Darstellung des Waldes auf einer Landkarte? In welchem Masstab? 1:25’000 oder 1:100’000? Offensichtlich ändert sich je nach Sicht die Informationsmenge des jeweiligen Makrozustandes.

Was interessiert uns, wenn wir den Wald beschreiben? Die Wege durch den Wald? Die Baumarten? Hat es Rehe und Hasen? Wie gesund ist der Wald?

Mit anderen Worten: Der Wald kann wie jedes Objekt auf sehr unterschiedlichen Weise beschrieben werden.

Es gibt kein eindeutiges, absolutes Makrolevel. Je nach Situation und Bedürfnissen gilt eine andere Makrodarstellung.

Die Relativität von Mikro- und Makroebene

Auf jeder Ebene gibt es eine jeweilige quantitative Menge an Information, je tiefer umso reichhaltiger, je höher, umso übersichtlicher. Doch es wäre ein Irrtum, eine bestimmte Ebene mit ihrer Informationsmenge als die tiefste oder die höchste zu bezeichnen. Beides ist willkürlich.

Die Information ist die Differenz

Sobald wir akzeptieren, dass sowohl das Mikro- wie das Makrolevel in beliebiger Höhe angesetzt werden können, nähern wir uns einem realeren Informationsbegriff. Es macht plötzlich Sinn, von einer Differenz zu sprechen. Die Differenz zwischen den – jeweils gewählten! – beiden Ebenen definieren die Spanne des Wissens.

Die Information, die ich gewinnen kann, ist die Information, die mir im noch Makrolevel fehlt, die ich aber im Mikrolevel finde. Die Differenz zwischen den beiden Ebenen bezüglich ihrer Entropie ist die Information, die ich dabei gewinnen kann.

Umgekehrt, wenn ich die Details der Mikroebene vor mir habe und eine Übersicht gewinnen will, muss ich diese Information der Mikroebene vereinfachen, und ich muss ihre Bitzahl reduzieren. Diese Reduktion ist die Entropie, d.h. die Information, die auf die ich bewusst verzichte.

Das Informationsparadox

Wenn ich aus einem Wust von Details die Information herausholen will, die mich interessiert, wenn ich also von der Detailbeschreibung zur verwertbaren Information gelangen will, dann muss ich ganz viel Informationen der Mikroebene unter den Tisch fallen lassen. Ich muss Information verlieren, um meine gewünschte Information zu erhalten. Dieses Paradox liegt jedem Analysevorgang zugrunde.

Information ist relativ und dynamisch

Was ich vorschlage ist ein relativer Informationsbegriff. Das entspricht nicht der Erwartung der meisten Mitmenschen, die eine statische Vorstellung von der Welt haben. Die Welt ist aber grundlegend dynamisch. Wir bewegen uns in dieser Welt wie alle anderen Lebewesen als informationsverarbeitende Existenzen. Die Verarbeitung von Information ist ein alltäglicher Vorgang für alle von uns, für alle biologischen Existenzen, ob Pflanzen, Tiere oder Menschen.

Die Verarbeitung von Information ist für alle Lebewesen ein existentieller Prozess. Dieser Prozess hat stets ein Vorher und ein Nachher. Je nachdem gewinnen wir Information, wenn wir etwas im Detail näher ansehen. Und wenn wir eine Übersicht gewinnen wollen, oder einen Entschluss (!) fassen, dann müssen wir Information vereinfachen. Wir gehen also von einer Makrobeschreibung zu einer Mikrobeschreibung und umgekehrt. Information ist dabei eine dynamische Grösse.

Entropie ist die Information, die im Makrolevel fehlt, im Mikrolevel aber zu finden ist.

Und umgekehrt: Entropie ist die Information, die im Mikrolevel vorhanden ist, im Makrolevel – also zur Gewinnung einer Übersicht – ignoriert wird.


Objekte und ihr Mikro- und Makrolevel

Wir können davon ausgehen, dass ein bestimmtes Objekt auf verschiedenen Stufen beschrieben werden kann. Ob eine tiefste Beschreibungsebene zu finden ist, ist gemäss aktuellen naturwissenschaftlichen Erkenntnissen ungewiss, doch für unsere informationstheoretischen Überlegungen letztlich irrelevant. Genauso ist es nicht sinnvoll von einer höchsten Makroebene zu sprechen. Die Makroebenen richten sich nach der Aufgabe der jeweiligen Betrachtung.

Was aber relevant ist, ist der Abstand, also die Information, die im Makrozustand zu gewinnen ist, wenn tiefere Details in die Sicht integriert werden, oder wenn sie – zwecks besserer Übersicht – verworfen werden. Beidemale geht es um eine Differenz zwischen zwei Beschreibungsebenen.

Die Darstellung oben visualisiert die Menge der erkannten Bits in einem Objekt. Oben bei der Makrospitze sind es wenige, unten im Mikrolevel sind es viele. Das Objekt bleibt das gleiche, ob nun viele oder wenige Details berücksichtigt, bzw. erkannt werden.

Die Makrosicht bringt wenige Bits, doch ihre Auswahl wird nicht vom Objekt allein bestimmt, es kommt vielmehr auch auf das Interesse hinter der Sichtweise an.

Die Zahl der Bits, d.h. die Entropie nimmt von unten nach oben ab. Das ist aber nicht eine Eigenschaft des Objekts der Betrachtung, sondern eine Eigenschaft der Betrachtung selber. Je nachdem sehe ich das Objekt anders, einmal detailliert und unübersichtlich, ein anderes Mal übersichtlich und vereinfacht, d.h.einmal mit viel und ein anderes Mal mit weniger Entropie.

Die Informationsgewinnung ist der dynamische Vorgang, der entweder
a) mehr Details erkennt: Makro → Mikro
b) mehr Übersicht gewinnt: Mikro → Makro

Beidemale wird die Informationsmenge (Entropie als Bitmenge) verändert. Die gewonnenen oder verlorenen Bits entsprechen der Differenz der Entropie von Mikro- und Makrolevel.

Wenn ich das Objekt in den Blick nehme, enthüllt es je nach Betrachtungsweise mehr oder weniger Information. Information ist dabei stets relativ zum Vorwissen und dynamisch zu verstehen.


Das ist ein Beitrag zum Thema Entropie. Siehe -> Übersichtsseite Entropie


 

Entropie (Teil 1)

Entropie und Information

Der Begriff Entropie wird gerne vermieden, weil er eine gewisse Komplexität enthält, die sich nicht wegdiskutieren lässt.
Doch wenn wir über Information sprechen, müssen wir auch über Entropie sprechen. Denn Entropie ist das Mass für die Informationsmenge. Wir können nicht verstehen, was Information ist, ohne zu verstehen, was Entropie ist.

Information ist immer relativ.

Wir glauben, dass wir Information packen können, so wie wir Bits in einem Speichermedium ablegen. Die Bits sind dann die Information, die objektiv verfügbar ist. Wir haben uns so sehr an dieses Bild gewöhnt, dass wir glauben, dass Information in kleinen Kügelchen daherkommt, die ja und nein sagen können. Doch dieses Bild täuscht.

Denn natürlich sagen die Kügelchen nicht ‹ja› oder ’nein›, nicht 0 oder 1, nicht TRUE oder FALSE, und auch sonst nichts bestimmtes. Bits haben gar keine Bedeutung, es sei denn, man habe diese Bedeutung von aussen her definiert. Dann können sie sehr gut 1, TRUE, ‹Ich komme heute zum Abendessen› oder irgend etwas anderes aussagen, jedoch erst zusammen mit ihrer Umgebung, ihrem Kontext.

Aus dieser Überlegung wird klar, dass Information relativ ist. Das Bit bekommt seine Bedeutung erst aus einer bestimmten Einordnung heraus. Je nachdem bedeutet es 0 oder 1, ‹Wahr› oder ‹Falsch›, usw. Das Bit ist an seinem Platz zwar gesetzt, doch seine Bedeutung bekommt es erst durch seinen Platz.
Somit muss der Platz, also der Kontext mit hineingenommen werden, damit klar wird, was das Bit bedeuten soll. Und natürlich ist die Bedeutung relativ, das heisst, das gleiche Bit, kann in einem anderen Kontext, einem anderen Platz eine ganz andere Bedeutung haben.

Diese Relativität ist nun charakteristisch nicht nur für das Bit, sondern für jede Art Information. Jede Information bekommt ihre Bedeutung erst durch den Kontext, in dem sie steht. Sie ist also relativ. Denken Sie das am besten an Beispielen aus Ihrem Leben durch. Information ist nicht das Signal, das auf ‹ja› oder ’nein› steht. Dieses Signal ist nur das Signal. Was es bedeutet, wird erst klar, wenn Sie das Signal aus Ihrer Warte heraus interpretieren, wenn Sie es aus Ihrem Kontext heraus ansehen.
Erst dann bekommt das Signal für Sie eine Bedeutung. Diese Bedeutung liegt nicht absolut, d.h. isolierbar im Signal Bit, sondern relativ in der Interaktion zwischen Ihrer Erwartung , dem Kontext, und der Stellung des Schalters, der auf ON oder OFF gestellt sein kann. Dieser Schalter ist das Bit. Seine Bedeutung an sich, also wenn das Bit isoliert wird, ist nur ON oder OFF.
Alles andere liegt in der Umgebung.

Definition der Entropie

In Anbetracht der Tatsache, wie wichtig Information und Informationstechnologien sind, ist es schon erstaunlich, wie wenig bekannt die wissenschaftliche Defintion von Entropie, also von Information ist:

Entropie ist das Mass für die Information, die im Mikrozustand bekannt ist, im Makrozustand aber nicht.

Die Entropie hängt somit eng mit der Information auf Mikro- und Makrolevel zusammen, und sie kann als ‹Abstand› oder Differenz der Information auf den beiden Informationsebenen gesehen werden.

Mikro- und Makroebene

Was ist mit diesem Abstand zwischen Mikro- und Makroebene gemeint? – Die Mikroebene enthält die Details (also viel Information), die Makroebene die Übersicht (also weniger, dafür gezieltere Information). Der Abstand zwischen den beiden Ebenen kann sehr klein sein (wie beim Bit, wo das Mikrolevel gerade zwei Informationen kennt: on oder off ) oder aber riesig gross, wie z.B. bei der Temperatur (Makrolevel)  des Kaffees, wo Bewegungsenergien der vielen Moleküle (Mikrolevel) die Temperatur des Kaffees bestimmt. Die Zahl der Moleküle liegt in diesem Fall in der Grössenordnung der Avogadroschen Zahl 1023, also ganz schön hoch, und die Entropie des Kaffees in der Tasse ist entsprechend wirklich sehr hoch.

Andererseits gibt es auch ‹kleine› Informationen, die sehr nahe an der Grössenordnung eines Bits (Infogehalt = 1) heran kommen. Immer aber kommt es auf das Verhältnis von Mikro- zu Makrozustand an. Dieses Verhältnis – also was im Mikrozustand gewusst wird, im Makrozustand aber nicht – definiert die Information.

Die Komplexität des Makrozustandes

Der Makrozustand enthält stets weniger Information als der Mikrozustand, er ist eine gezielte Vereinfachung der Information des Mikrozustandes.

For example: a certain individual (micro level), can belong to the collective macro groups of Swiss inhabitants, computer scientists, older men, contemporaries of the year 2024, etc., all at the same time.

Das führt dazu, dass der gleiche Mikrozustand verschiedene Makrozustände beliefern kann. Zum Beispiel: Ein Individuum des Mikrolevels kann in der komplexen Welt der Gesellschaft mehreren Makrogruppen angehören, also gleichzeitig den Makrogruppen der Schweizer, der Informatiker, der älteren Männer, der Zeitgenossen des Jahres 2024 usw. Alle diese Makrogruppen bestehen aus vielen Individuen und sie überschneiden und durchdringen sich auf wechselnde Weise.

Die Möglichkeit, aus verschiedenen Mikrozuständen gleichzeitig mehrere Makrozustände herauszuziehen, ist charakteristisch für die Komplexität von Mikro- und Makrozustand und somit auch für die Entropie.

So einfach lässt sich also die Entropieüberlegung nicht in komplexere Netze übertragen, wie es die einfachen Beispiele der Kaffeetasse nach Boltzmann, des verlorene Schlüssel nach Salm oder das simple Bit vermuten lassen.

Siehe auch:
Paradoxe Logikkerne, Teil 2
Bit und Unterscheidung
Fünf Vorurteile über Entropie


Das ist ein Beitrag zum Thema Entropie. Siehe -> Übersichtsseite Entropie


 

Das Bit hat keine Bedeutung

Das Bit ist die Basis der IT

Unsere Informationstechnologie baut auf dem Bit auf. Alles, was in unseren Computern geschieht, basiert auf diesem kleinsten Basiselement der Information. Wenn Sie gefragt werden, was ein einzelnes Bit bedeutet, werden Sie möglicherweise antworten, dass das Bit zwei Zustände einnehmen kann, von denen der eine 0 ist und der andere 1 bedeutet. Auf diese Weise können wir bekanntlich beliebig hohe Zahlen schreiben, wir müssen einfach genügend Bits hintereinander reihen.

Aber stimmt das auch? Bedeutet wirklich der eine Zustand im Bit 0 und der andere 1? Können die beiden Zustände nicht auch ganz andere Bedeutungen annehmen?

Dem Bit können beliebige Bedeutungen zugeschrieben werden

In der Tat können die beiden Zustände des Bits irgendeine Bedeutung einnehmen. Beliebt sind neben 0/1 auch Wahr/Falsch, Ja/Nein, Positiv/Negativ, aber im Prinzip und in der Praxis können dem Bit von aussen irgendwelche Bedeutungen zugeschrieben werden. Selbstverständlich sind auch Umkehrungen erlaubt, also neben 0/1 auch 1/0.

Die Zuschreibung der Bedeutung des Bits erfolgt von aussen

Ob das konkrete Bit im Computerprogramm nun 0/1 oder 1/0 oder irgendetwas anderes bedeutet, spielt selbstverständlich eine entscheidende Rolle. Die Bedeutung liegt aber nicht im Bit selber, denn das Bit ist eine höchst radikale Abstraktion. Es sagt nur aus, dass zwei Zustände existieren und welcher zur Laufzeit gerade aktuell ist. Was die beiden aber bedeuten, ist eine ganz andere Geschichte, die über das einzelne Bit weit hinausgeht. In einem Computerprogramm kann z.B. deklariert werden, dass das Bit dem Wertepaar TRUE/FALSE entspricht. Das gleiche Bit kann aber auch mit anderen Bits zusammen als Teil einer Zahl oder eines Buchstabencodes interpretiert werden – sehr unterschiedliche Bedeutungen also, je nach Programmkontext.

Digitaler und analoger Kontext

Das Softwareprogramm ist der digitale Kontext und er besteht selbstverständlich aus weiteren Bits. Diese Bits aus der Umgebung können verwendet werden, um die Bedeutung eines Bits zu bestimmen. Nehmen wir an, unser Bit sei mit weiteren Bits daran beteiligt, den Buchstaben ‹f› zu definieren. Unser Programm sei auch so organisiert, dass dieser Buchstabe in eine Tabelle zu stehen kommt, und zwar in eine Spalte, die mit ‹Geschlecht› überschrieben ist. All dies ist in der Software klar geregelt. Legt nun die Software die Bedeutung des Bits fest? Sicher sind Sie nicht überrascht, wenn das ‹f› die Bedeutung ‹feminin› hat und die Tabelle vermutlich verschiedene Personen auflistet, die männlich oder weiblich (f) sein können. Was aber bedeuten männlich und weiblich? Erst in der analogen Welt bekommen diese Ausdrücke eine Bedeutung.

Das Bit, die perfekte Abstraktion

Das Bit stellt in der Tat den Endpunkt einer radikalen Informationsabstraktion dar. Die Information ist im einzelnen Bit soweit auf das absolut Elementare reduziert, dass die Information über die Bedeutung aus dem Bit vollständig herausgenommen worden ist. Das Bit sagt nur noch aus, dass zwei – ausserhalb des Bits beschriebene – Zustände existieren und welcher der beiden zu einem bestimmten Zeitpunkt aktuell ist.

Diese radikale Abstraktion ist gewollt und in einer Software sehr sinnvoll. Denn so kann das gleiche physische Bit im Chip des Computer immer wieder neu verwendet werden, einmal als TRUE/FALSE-Paar, einmal als 0/1, einmal als JA/NEIN usw. Das ist sehr praktisch und ermöglicht dem Computer, beliebige Aufgaben zu erfüllen. Die dadurch gewonnene perfekte Abstraktion nimmt dem einzelnen Bit aber gleichzeitig seine individuelle Bedeutung und diese kann und muss dann für jede Anwendung von aussen neu gegeben werden.

Der unendliche Regress

Wenn die Bedeutung des Bits von aussen gegeben wird, dann können natürlich andere Bits diese Aufgabe übernehmen und die Bedeutung des einen Bits definieren. Dazu müssen aber diese äusseren Bits die entsprechende Wirkkraft haben, die natürlich nicht ohne deren eigenen Bedeutung zu haben ist. Und selbstverständlich liegen die Bedeutungen der Bits dieses äusseren Kreises nicht in diesen Bits selber – aus den gleichen Gründen wie oben – sondern sie müssen von aussen, d.h. von einem weiteren Kreis von Bits gegeben werden. Die Bits dieses zweiten äusseren Kreises müssen in einem weiteren Kreis erklärt werden und die Bedeutung der Bits dieses weiteren Kreises wiederum von einem noch äusseren  …  Selbstverständlich kommt dieser Prozess der Bedeutungszuordnung in einer Welt von Bits nie an sein Ende, der Regress ist unendlich.

Erst im Analogen endet der unendliche Regress

Erst wenn wir aus dem Programm in die Realwelt heraustreten, können wir den Informationen aus dem Computer wirkliche eine Bedeutung zuordnen.

Selektiver und deskriptiver Informationsgehalt

Wenn wir das oben Beschriebene rekapitulieren können wir im Bit Folgendes unterscheiden:

Der deskriptive Informationsgehalt sagt aus, was das Bit bedeutet, er beschreibt die beiden Zustände des Bits, sagt aber nicht aus, welcher Zustand aktuell gewählt ist.  Der selektive Informationsgehalt andererseits sagt aus, welcher der beiden Zustände aktuell ist, weiss aber nichts über die Eigenschaften der beiden Zustände, und somit auch nichts über ihre jeweilige Bedeutung.

Die Unterscheidung zwischen selektivem und deskriptivem Informationsgehalt wurden vom britischen Radar-Pionier und Informationswissenschaftler Donald MacKay in den 40-er Jahren des letzten Jahrhunderts geprägt, praktisch gleichzeitig mit der ersten Erwähnung und Beschreibung des klassischen Bits durch den Amerikaner C. A. Shannon. MacKay hat auch bereits sehr klar erkannt, dass das Bit von Shannon nur einen selektiven Informationsgehalt trägt und der deskriptive von aussen gegeben werden muss.

Erstaunlicherweise ist diese Erkenntnis von MacKay heute beinahe in Vergessenheit geraten.


Fazit:

1. Das Bit liefert den selektiven Informationsgehalt.
2. Der deskriptive Informationsgehalt liegt nicht im Bit.
3. Ein isoliertes Bit trägt allein keine Bedeutung.
4. Die Bedeutung des Bits wird stets von ausserhalb des Bits gegeben.
5. Dadurch wird ein unendlicher Regress initiiert.
6. Erst im Analogen endet der unendliche Regress.


Die Zahl der Bits misst die Quantität von Information -> Übersichtsseite Informationstheorie


Die Unterscheidung (nach Spencer-Brown) und das Bit


Fortsetzung von Paradoxe Logikkerne (2)


Geschichte

Bevor wir die Konsequenzen der Distinction von Georg Spencer-Brown (GSB) auf Logik, Physik, Biologie und Philosophie ansehen, ist es hilfreich, sie mit einer anderen, viel bekannteren Grundform zu vergleichen, nämlich dem Bit. Das ermöglich uns, die Natur von GSB’s distinction und das Revolutionäre seiner Innovation besser zu verstehen.

Bits und Forms können beide als Basis-Bausteine für die Informationsverarbeitung angesehen werden. Software-Strukturen bauen technisch auf Bits auf, doch die Forms von GSB («draw a distinction») sind genauso einfach, grundlegend und dabei verblüffend ähnlich. Trotzdem gibt es charakteristische Unterschiede.

     

Abb. 1: Form und Bit zeigen Ähnlichkeit und Unterschiede

Sowohl Bit wie die Spencer-Brown Form sind in der Frühphase der Informatik entstanden, also relativ neue Vorstellung. Das Bit wurde von C.A. Shannon 1948 beschrieben, die Distinction von Georg Spencer-Brown (GSB) in seinem Buch «Laws of Form» im Jahr 1969, also nur ca. 20 Jahre später. 1969 fiel in die hohe Zeit der Hippie-Bewegung und GSB wurde in der Tat in Kaliforniens Hippie-Hochburg Esalen hoch willkommen geheissen. Das hat möglicherweise ein schlechtes Licht auf ihn geworfen und den etablierten Wissenschaftsbetrieb von ihm abgehalten. Während das Bit Kaliforniens entstehende Informations-High-Tech-Bewegung beflügelte, wurde Spencer-Browns mathematisch-logische Revolution von der Scientific Community geflissentlich ignoriert. Es ist Zeit, diesen Misstand zu überwinden.


Gemeinsamkeiten von Distinction und Bit

Beide, die Form und das Bit, beziehen sich auf Information. Beide sind elementare Abstraktionen und können deshalb als Grundbausteine von Information gesehen werden.

Diese Gemeinsamkeit zeigt sich darin, dass beide einen einzigen Aktionschritt bezeichnen – wenn auch einen unterschiedlichen – und beide dieser Aktion eine maximal reduzierte Anzahl von Ergebnissen zuordnen, nämlich genau zwei.

Tabelle 1: Sowohl Bit wie Distinction beinhalten
je eine Aktion und zwei mögliche Resultate (Outcomes)

Genau eine Aktion, genau zwei potentielle Ergebnisse

Die Aktion der Distinction ist die Distinction, also die Unterscheidung, die Aktion des Bits ist die Auswahl, also die Selection. Beide Aktionen sind als Informationshandlungen zu sehen und als solche fundamental, d.h. nicht weiter reduzierbar. Das Bit enthält in sich nicht weitere Bits, die Distinktion enthält in sich nicht weitere Distinktionen. Natürlich gibt es in der Umgebung des Bits weitere Bits und in der Umgebung einer Distinktion weitere Distinktionen. Beide Aktionen sind aber als fundamentale Informationshandlungen zu sehen. Ihre Fundamentalität wird unterstrichen durch die kleinst mögliche Zahl ihrer Ergebnisse, nämlich zwei. Die Zahl der Ergebnisse kann nicht kleiner sein, denn eine Unterscheidung von 1 ist keine Unterscheidung und eine Selektion aus 1 ist keine Selektion. Beides ist erst möglich, wenn es zwei potentielle Ergebnisse gibt.

Sowohl Distinction wie Bit sind somit unteilbare Informationshandlungen von radikaler, nicht zu steigernder Simplizität.

Trotzdem sind sie nicht gleich und auch nicht austauschbar. Sie ergänzen sich.

Während das Bit seit 1948 einen technischen Höhenflug angetreten ist, ist seine Voraussetzung, die Unterscheidung (distinction), ungenannt im Hintergrund geblieben. Umso mehr lohnt es sich, sie heute in den Vordergrund zu rücken und so ein neues Licht auf die Grundlagen von Mathematik, Logik, Natur- und Geisteswissenschaften zu werfen.


Unterschiede

Informationsgehalt und die Entropie nach Shannon

Beide, Form und Bit, beziehen sich auf Information. In der Physik wird der quantitative Gehalt an Information als Entropie bezeichnet.

Der Informationsgehalt, wenn ein Bit gesetzt, bzw. eine Unterscheidung getroffen wird, ist auf den ersten Blick in beiden Fällen gleich gross, nämlich die Information, die zwischen zwei Zuständen unterscheidet. Das ist beim Bit ganz klar so. Sein Informationsgehalt ist, wie Shannon gezeigt hat, log2(2) = 1. Shannon hat diesen dimensionslosen Wert als 1 Bit bezeichnet. Das Bit enthält somit – nicht ganz überraschend – die Information von einem Bit. So ist es von Shannon definiert worden.

Das Bit und die Entropie

Das Bit misst nichts anderes als die Entropie. Der Begriff Entropie stammt ursprünglich aus der Wärmelehre und dient dazu, das Verhalten von Wärmemaschinen zu berechnen. Entropie ist der Partnerbegriff der Energie und gilt – wie der Begriff Energie – überall in der Physik, nicht nur in der Wärmelehre.

Was ist Entropie?

Die Entropie misst also – seit Shannon – den Informationsgehalt. Wenn ich etwas nicht weiss und es anschliessend erfahre, fliesst Entropie als Information. Wenn – bevor ich weiss, was gilt – zwei Zustände möglich sind, dann erhalte ich, wenn ich erfahre, welcher der beiden Zustände zutrifft, eine Information mit dem quantitativen Wert 1 Bit.

Wenn mehr als zwei Zustände möglich sind, steigt die Zahl der Bits logarithmisch mit der Zahl der möglichen Zustände; so braucht es drei 2-er Wahlen um aus 8 Möglichkeiten die zutreffende herauszufinden, also genau drei Bits. Die Zahl der Wahlen (Bits) verhält sich zur Zahl der Auswahlmöglichkeiten wie das Beispiel zeigt, logarithmisch.

Zweierwahl = 1 Bit = log2(2).
Viererwahl = 2 Bit = log2(4)
Achterwahl = 3 Bit = log2(8)

Der Informationsgehalt eines einzigen Bits ist stets der Informationsgehalt einer einzigen Zweierwahl, also log2(2) = 1. Das Bit als physikalische Grösse ist dimensionslos, also eine reine Zahl. Das passt, weil die Information über die Wahl neutral ist, und nicht etwa eine Länge, ein Gewicht, eine Energie oder eine Temperatur. So viel zum Bit, der technischen Einheit der des quantitativen Informationsgehaltes. Wie verhält es sich nun bei der anderen Grundeinheit von Information, der Form von Spencer-Brown?

Der Informationsgehalt der Form

Der Informationsgehalt des Bits ist genau 1, wenn die beiden Outcomes der Selektion genau gleich wahrscheinlich sind. Sobald von zwei Zuständen einer unwahrscheinlicher ist, ist die Information grösser, wenn er, trotz der geringeren Vorwahrscheinlichkeit, gewählt wird. Je unwahrscheinlicher er ist, umso grösser wird die Information, wenn die Wahl auf ihn fällt. Nur beim klassischen Bit ist die Wahrscheinlichkeit für beide Zustände per Definition gleich gross.

Das ist ganz anders bei der Form der Unterscheidung von Spencer-Brown. Das Entscheidende dabei ist der ‹unmarked space›. Die Distinktion unterscheidet etwas vom Rest und markiert es. Der Rest, also alles andere bleibt unmarkiert, Spencer-Brown nennt es den ‹unmarked space›.

Wir können und müssen nun davon ausgehen, dass der Rest, das Unmarkierte, viel grösser ist, und die Wahrscheinlichkeit seines Eintretens viel grösser ist, als die Wahrscheinlichkeit, dass das Markierte eintrifft. Der Informationsgehalt des Markierten ist deshalb immer grösser als 1.

Natürlich geht es bei der Unterscheidung um das Markierte. Deshalb wird für den Informationsgehalt der Unterscheidung das Markierte und nicht das Unmarkierte gerechnet. Wie gross ist nun der Raum des Unmarkierten? Wir tun gut daran, davon ausgehen, dass er unendlich ist. Ich kann nie wissen, was ich alles nicht weiss.

Der Unterschied im Informationsgehalt, gemessen als Entropie, ist der erste Unterschied zwischen Bit und Unterscheidung. Beim Bit ist der Informationsgehalt, d.h. die Entropie genau 1, bei der Unterscheidung kommt es darauf an, wie gross der Unmarkierte Raum gesehen wird, er ist aber stets grösser als der markierte und die Entropie der Unterscheidung ist deshalb aus mathematischen Gründen stets grösser als 1.

Geschlossenheit und Offenheit

Die Abb. 1 oben zeigt den wichtigsten Unterschied von Distinktion und Bit, nämlich ihre Grenzen gegen aussen. Diese ist beim Bit klar definiert.

Die Bedeutungen im einem Bit

Das Bit enthält zwei Zustände, von denen einer aktiviert ist, der andere nicht. Ausser diesen beiden Zuständen ist nichts im Bit zu sehen und alle andere Information befindet sich ausserhalb des Bits. Nicht einmal die Bedeutungen der beiden Zustände sind definiert. Sie können 0 und 1, Wahr undd Falsch, Positiv und Negativ oder jedes andere Paar bedeuten, das sich gegenseitig ausschliesst. Das Bit selber enthält diese Bedeutungen nicht, nur die Information, welcher der beiden Zustände gewählt wurde. Die Bedeutung der beiden Zuständen wird ausserhalb des Bits geregelt und von ausserhalb zugewiesen. Diese Neutralität des Bits ist seine Stärke. Es kann jede Bedeutung annehmen und ist deshalb überall einsetzbar, wo Information technisch prozessiert wird.

Die Bedeutung in einer Unterscheidung

Ganz anders ist das bei der Unterscheidung. Hier wird die Bedeutung markiert. Dazu wird das Innere der Unterscheidung vom Äusseren unterschieden. Das Äussere aber ist offen und es gibt nichts, was nicht dazu gehört. Der ‹unmarked space› ist im Prinzip unendlich. Eine Grenze wird definiert, doch sie ist die Unterscheidung selber. Deshalb kann sich die Unterscheidung nicht wirklich gegen aussen abgrenzen, im Gegensatz zum Bit.

Mit anderen Worten:

→  Das Bit ist geschlossen, die Unterscheidung nicht.

Unterschiede zwischen Unterscheidung und Bit


Tabelle 2: Unterschiede ziwschen Distinction (Form) und Bit

Die Unterschiede haben nun einige interessante Konsequenzen.


Konsequenzen

Bits und Offenheit in einer Software (Beispiel NLP)

Das Bit hat durch seine definierte und simple Entropie den technologischen Vorteil der einfachen Handhabbarkeit, was wir uns in der Software-Industrie zu Nutze machen. Die Forms hingegen sind durch ihre Offenheit realitätsgerechter. Für unsere konkrete Aufgabe der Interpretation von medizinischen Texten stiessen wir deshalb auf die Notwendigket, die Offenheit auch in der Bitwelt der technischen Software durch bestimmte Prinzipien einzuführen. Stichworte dazu sind:

  1. Einführung eines handelnden Subjekts, das den Input nach eigenen Internen Regeln bewertet,
  2. Arbeiten mit wechselnden Ontologien und Klassifikationen,
  3. Abkehr von der klassischen, d.h. statischen und monotonen Logik zu einer nicht-monotonen Logik,
  4. Integration der Zeit als Logikelement (nicht nur als Variable).

Mehr zum Thema Information -> Übersichtsseite Informationstheorie


 

Paradoxe Logikkerne (Teil 2)

Dieser Beitrag setzt Paradoxe Logikkerne (Teil 1) fort


«Draw a Distinction»

Mit diesen Worten führt Spencer-Brown den elementaren Baustein seiner formalen Logik ein: «Draw a Distinction» – «Zieh eine Unterscheidung». Abbildung 1 zeigt dieses sehr einfache Element der Unterscheidung oder Distinction, den formalen Baustein von Spencer-Browns Logik:

Abb 1: Die Form der Unterscheidung von Spencer-Brown

Eine extreme Abstraktion

In der Tat besteht seine Logik ausschliesslich aus diesem Baustein. Spencer-Brown ist damit eine Abstraktion gelungen, die abstrakter ist als alles, was Mathematiker und Logiker bisher gefunden hatten.

Was ist mit dieser Form nun gemeint? Spencer-Brown zielt auf einen elementaren Prozess, nämlich das ‹Ziehen einer Unterscheidung›. Dieser elementare Prozess teilt nun die Welt in zwei Teile, nämlich den Teil, der innerhalb der Unterscheidung liegt, und den Teil ausserhalb.


Abb. 2: Visualisierung der Unterscheidung

Die Teilung der Welt

Abbildung 2 zeigt, was das formale Element von Abb 1 meint: eine Teilung der Welt in das Unterschiedene (inside) und alles andere (outside). Der Winkel von Abb. 1 wird also – gedanklich – zum Kreis, der alles einschliesst, was gemeint, also unterschieden («draw a distinction») ist.

Die Winkelform von Abb. 1 meint also den Zirkel von Abb. 2, der alles umfasst, was gemeint ist.

Perfekte Beinhaltung

Weshalb aber zeichnet Spencer-Brown seinen elementaren Baustein als offenen Winkel und nicht als geschlossenen Kreis, obwohl er die Geschlossenheit meint, indem er ausdrücklich sagt: «Distinction is perfect continence», der Unterscheidung also eine perfekte Beinhaltung zuweist. Dass er trotzdem die Beinhaltung als Winkel zeigt, wird später klar werden, und sich als eine von Spencer-Browns genialen Entscheidungen erweisen. (mehr dazu im iommenden Beitrag «Imaginärer Logikwert»)

Unterscheidung von Markiert und Unmarkiert

Zudem ist es möglich, die Innenseite und die Aussenseite zu benennen, als den markierten (m=marked) und den unmarkierten (u=unmarked) Raum und diese Benennungen später in grösseren Kombination von Unterscheidungen zu verwenden.

Abb. 3: Marked (m) und unmarked (u) space

Kombinatierte Unterscheidungen

​​Um den Baustein in grösseren Logikaussagen zu verwenden, kann er nun auf verschiedene Weisen zusammengestellt werden.

Abb. 4: Drei kombinierte Formen der Unterscheidung

Abbildung 4 zeigt, wie Unterscheidungen auf zwei Arten miteinander kombiniert werden können, entweder als Aufzählung (seriell) oder als Etagierung, indem über Unterscheidungen weitere Unterscheidungen gestellt werden. Spencer Brown arbeitet mit diesen Kombinationen und leitet – ganz Mathematiker – verschiedene Schlüsse und Beweise aus wenigen Axiomen und Kanons ab. Er baut auf diese Weise ein eigenes formales mathematisch-logisches Regelwerk auf. Die Ableitungen und Beweise müssen uns hier nicht vordringlich interessieren, sie zeigen aber, wie sorgfältig und mathematisch-penibel Spencer-Brown seinen Formalismus entwickelt.

​Re-Entry

Das Re-Entry, der Wiedereintritt ist nun das, was uns zum Paradox führt. Es ist nun in der Tat so, dass Spencer-Browns Formalismus es möglich macht, den Formalismus echter Paradoxe, wie z.B des Barbierparadoxes auf ganz einfache Weise zu zeichnen. Das Re-Entry wirkt wie ein leuchtender Edelstein (sorry für die poetische Ausdrucksweise), der in logischen Netzen eine ganz spezielle Funktion übernimmt, nämlich die Verknüpfung von zwei logischen Ebenen, einer Basisebene und ihrer Metaebene.

Der Trick dabei ist, dass auf beiden Ebenen die gleiche Unterscheidung getroffen wird. Dass es sich also um die gleiche Unterscheidung handelt, aber auf zwei Ebenen, und dass sich diese eine Unterscheidung auf sich selber bezieht, von der einen Ebene auf die andere, von der Metaebene auf die Basisebene. Das ist die Form der Paradoxie.

Beispiel Barbierparadox

Wir können nun das Barbierparadox mit Hilfe der Form von Spencer-Brown notieren:

Abb. 5: Unterscheidung der Männer des Dorfes, die
sich selber (S) oder nicht selber (N) rasieren

Abb. 6: Notation von Abb. 5 als perfekte Beinhaltung

Abb. 5 und Abb. 6 zeigen das gleiche, nämlich die Unterscheidung der Männer des Dorfes in solche, die sich selber rasieren und die anderen, die das nicht tun.

Wie kommt nun der Barbier hinein? Nehmen wir an, er ist eben aufgestanden und noch unrasiert. Dann gehört er zur Innenseite der Unterscheidung, also zur Gruppe der unrasierten Männer N. Kein Problem für ihn, er rasiert sich schnell, frühstückt und geht dann an die Arbeit. Jetzt gehört er zu den Männern S, die sich selber rasieren, er muss sich also nicht mehr rasieren. Das Problem stellt sich erst am nächsten Morgen. Jetzt gehört er ja zu den Männern, die sich selber rasieren – also muss er sich nicht rasieren. Unrasiert, wie er ist, muss er sich aber jetzt rasieren. Sobald er sich aber rasiert, gehört er zur Gruppe der Selberrasierer, muss sich also nicht rasieren. So wechselt der Barbier von einer Gruppe in die andere. Es stellt sich das typische Oszillieren des Barbierparadoxes – und auch aller anderen echten Paradoxien ein, die alle oszillieren.

Wie entsteht das Paradox?

Abb. 7: Der Barbier (B) rasiert alle Männer, die sich
nicht sel
ber rasieren (N)

Abb. 7 zeigt als Basis die Unterscheidung der Männer N (rot)  und S (blau). Das ist die Basisebene. Nun kommt der Barbier (B) hinein. Auf einer logischen Metaebene wird ausgesagt, dass er die Männer N rasiert, in Abb. 7 durch den Pfeil symbolisiert.

Das Paradox entsteht zwischen der Basis- und der Metaebene. Dann nämlich, wenn gefragt wird, ob der Barbier, der ja auch ein Mann des Dorfes ist, zur Menge N oder zur Menge S gehört. Mit anderen Worten:

→ Ist  B  ein  N  oder ein  S ?

​Wenn B ein N ist, dann rasiert er sich (Abb. 7). Dadurch wird er zu einem S, also rasiert er sich nicht. Dadurch wird er zum N und rasiert sich. Das ist das Paradox und seine Oszillation.

Wie entsteht sie? Indem die beiden Ebenen verknüpft werden. Der Barbier ist ein Element der Metaebene, aber gleichzeitig ein Element der Basisebene. Der Barbier B ist auf der Metaebene ein handelndes Subjekt, auf der Basisebene aber ein Objekt. Die beiden Ebenen sind verknüpft über eine einzige Unterscheidung, doch B ist einmal Subjekt und sieht die Unterscheidung von aussen, doch gleichzeitig ist er auch ein Objekt dieser Unterscheidung, und wird dadurch als N oder S markiert. Das ist das Re-Entry. 

Das Re-Entry ist die logische Form der Paradoxie. Spencer-Browns Leistung besteht darin, dass er diese Form radikal einfach darstellt und sie formal maximal abstrahiert. Sie reduziert sich auf eine einzige Unterscheidung, die auf zwei Ebenen gelesen wird, einmal grundsätzlich (B ist N oder S) und dann als Re-Entry, wenn überlegt wird, ob B sich selber rasiert.

Das Paradox entsteht durch das Re-Entry plus eine Negation: Er rasiert die Männer, die sich nicht selber rasieren. Re-Entry und Negation gehört zwingend dazu, um ein echtes Paradox zu generieren. Sie lassen sich bei allen echten Paradoxien nachweisen, beim Barbierparadox, beim Lügnerparadox, beim Russelparadox usw.

Der Kern von jedem echten Paradox

Georg Spencer-Browns Leistung besteht darin, dass er das Paradox auf seinen essentiellen formalen Kern reduziert hat:

→ Eine (einzige) Unterscheidung mit Re-Entry und Negation.

Dieser Kern kann in jedem echten Paradox gefunden werden. Spencer-Brown’s Entdeckung von Unterscheidung und Re-Entry hat nun weitrechende Konsequenzen bezüglich Logik, aber auch weit über die Logik hinaus.

Darauf will ich gerne eingehen. Als nächstes möchte ich aber die Distinction, d.h. die Unterscheidung von Spencer-Brown als Logikelement mit einem anderen Logikelement vergleichen, das Ihnen sicher bestens bekannt ist, nämlich dem Bit.

Fortsetzung:  Unterscheidung (nach Spencer-Brown) und Bit


Frühere Beiträge zur Selbstreferenzialität und zum Re-Entry:

Selbstreferentialität 1

Selbstreferentialität 2 (Paradoxie)

Die Drei-Welten-Theorie (Roger Penrose)


Selbstreferentialität bringt klassische logische Systeme wie FOL oder Boolsche Algebra zum Absturz.

Mehr zum Thema Logik -> Übersichtsseite Logik


Paradoxe Logikkerne (Teil 1)


Logik in Praxis und Theorie

Computerprogramme bestehen aus Algorithmen, d.h. aus Anweisungen, wie und in welcher Reihenfolge eine Eingabe zu bearbeiten ist. Algorithmen sind nichts anderes als angewandte Logik und ein Programmierer ist ein praktizierender Logiker.

Doch Logik ist ein weiter Begriff. Ganz eng gefasst, ist Logik ein Teil der Mathematik, ganz weit verstanden, ist Logik alles, was mit Denken zu tun hat. Diese beiden Pole zeigen einen deutlichen Kontrast: Die Logik der Mathematik ist geschlossen und wohldefiniert, die Logik des Denkens hingegen entzieht sich gern der präzisen Beobachtung: Wie komme ich auf einen bestimmten Gedanken? Wie verbinde ich meine Gedanken beim Denken? Und überhaupt: Was habe ich eben gedacht? Während die mathematische Logik mit klaren Begriffen und Regeln funktioniert, explizit und objektiv beschreibbar, ist die Logik des Denkens schwerer fassbar. Gibt es überhaupt Regeln des richtigen Denkens, so wie es in der mathematischen Logik Regeln dafür gibt, auf richtige Weise Schlüsse zu ziehen?

Wenn ich in diesen Unterschied zwischen mathematischer Logik und der Logik des Denkens eintauche, dann fällt mir etwas sofort auf: Das Nachdenken über mein Denken entzieht sich der Objektivität. Das ist bei der Mathematik nicht so. Mathematiker versuchen jeden kleinsten Denkschritt abzusichern, auf eine Weise, die klar und objektiv und für jeden nachvollziehbar, sobald er die mathematische Sprache versteht, ganz unabhängig von seiner Person: Das Subjekt des Mathematiker bleibt draussen.

Ganz anders ist es beim Denken. Wenn ich versuche, einen Gedanken zu beschreiben, den ich im Kopf habe, ist das mein persönlicher Gedanken, ein subjektives Geschehen, das sich primär nur meinem eigenen Denken zeigt und durch Wörter oder mathematische Formeln nur beschränkt ausgedrückt werden kann.

Doch genau dieser Widerstand reizt mich. Schliesslich möchte ich ‹korrekt› denken, und dazu ist es verlockend, zu verstehen, wie korrektes Denken überhaupt funktioniert.

Ich könnte nun Regress nehmen auf die mathematische Logik. Doch das Gehirn funktioniert nicht auf diese Weise. Auf welche Weise denn? Damit habe ich mich über viele Jahrzehnte beschäftigt, in der Praxis, ganz konkret bei dem Versuch, dem Computer NLP (Natural Language Processing) beizubringen, also explizite, maschinenfassbare Regeln zu finden für das Verstehen von Texten, ein Verstehen, das eigentlich ein subjektiver und zudem schwierig zu beschreibender Vorgang ist.

Meine Computerprogramme waren erfolgreich, doch das wirklich Interessante sind die Erkenntnisse, die ich dabei über das Denken gewinnen konnte, genauer, über die Logik, mit der wir denken.

Bei meiner Arbeit gelangen mir Erkenntnisse über den semantischen Raum, in dem wir denken, die Begriffe, die sich in diesem Raum aufhalten und die Art, wie sie sich bewegen. Doch die wichtigste Erkenntnis betraf die Zeit in der Logik. Darauf möchte ich jetzt eintreten.

Echte Paradoxe

Jeder, der sich ernsthaft mit Logik beschäftigt, ob professionell oder aus persönlichem Interesse, stösst früher oder später auf Paradoxe. Ein klassisches Paradox ist z.B. das Barbier-Paradox:

Das Barbierparadox

Der Barbier eines Dorfes wird dadurch definiert, dass er alle Männer rasiert, die sich nicht selber rasieren. Rasiert der Barbier sich selber? Wenn er das tut, gehört er zu den Männern, die sich selber rasieren und die er deshalb nicht rasiert. Wenn er sich somit nicht selber rasiert, gehört er aber zu den Männern, die er rasiert, also rasiert er auch sich selber. Dadurch gehört er aber zu den Männern, die er nicht rasieren muss. Also rasiert er sich nicht – usw. Das ist das Paradox: Wenn er sich rasiert, rasiert er sich nicht. Wenn er sich nicht rasiert, rasiert er sich.

Das gleiche Muster findet sich in weiteren Paradoxien, wie dem Lügnerparadox und vielen anderen. Man könnte nun denken, dass diese Art Paradoxien sehr gesucht sind und real keine Rolle spielen. Doch die Paradoxien spielen schon eine Rolle, zumindest an zwei Orten: in der Mathematik und im Denkvorgang.

Das Russel’sche Paradox und die Unvollständigkeitssätze von Kurt Gödel

Das Russel’sche Paradox hat das ‹Loch› in der Mengenlehre gezeigt. Die «Menge aller Mengen, die sich nicht selbst als Element enthalten» folgt dem gleichen Muster wie der Barbier des Barbierparadoxes und führt zur gleichen Art von unlösbarem Paradox. Etwas komplexer sind die beiden Unvollständigkeitssätze von Kurt Gödel, die aber letztlich auf dem gleichen Muster beruhen. Sowohl Russels wie Gödels Paradoxien sind für die Mathematik folgenreich. Das Russel Paradox hat dazu geführt, dass die Mengenlehre nicht mehr allein mit Mengen gebildet werden kann, weil das zu unhaltbaren Widersprüchen führt. Zermelo hatte deshalb die Mengen mit Klassen ergänzt und so die Geschlossenheit der Mengenlehre aufgeben müssen.

Auch Gödels Unvollständigkeitssätze beruhen letztlich auf dem gleichen Muster wie das Barbierparadox. Gödel hatte gezeigt, dass jedes formale System (formal im Sinn der Mathematik) Aussagen enthalten muss, die man formal weder beweisen noch widerlegen kann. Ein harter Schlag für die Mathematik und ihre formale Logik.

Spencer-Brown und die «Laws of Form»

Russels Widerlegung des simplen Mengenbegriffs und Gödels Beweis der Unvollständigkeit formaler Logik legen es nahe, näher über Paradoxe nachzudenken. Was ist das genau für ein logisches Muster, das hinter Russels und Gödels Problemen steckt? Was macht die Mengenlehre und die formale Logik unvollständig?

Die Frage hat mich lange beschäftigt. Überraschend hat es sich dann gezeigt, dass Paradoxien nicht nur lästige Übel sind, sondern dass es sich lohnt, sie vielmehr als sinnvolle Elemente in einer neuen formalen Logik einzusetzen. Dieser Schritt wurde vom Mathematiker Georg Spencer-Brown in seinem Buch «Laws of Form» von 1969 aufgezeigt, samt einem maximal einfachen Formalismus für Logik.

Ich möchte nun näher auf die Struktur der Paradoxien eintreten, wie sie Spencer-Browns aufgezeigt hat und auf die Konsequenzen, die sich daraus auf die Logik, die Physik, die Biologie und vieles mehr ergeben.

Fortsetzung: Paradoxe Logikkerne (Teil 2)


Fünf Vorurteile über Entropie

Die fünf Vorurteile in der Übersicht

  1. Entropie ist für Nerds
  2. Entropie ist unverständlich
  3. Entropie ist Wärmelehre
  4. Entropie ist Rauschen
  5. Entropie ist absolut

Korrekturen im Detail

1. Entropie ist die Grundlage unseres Alltags

Nerds interessieren sich gern für entlegene Themen. Da passt Entropie gut hinein, nicht wahr? Blutleere Nerds stellen sich damit als intellektuell überlegen dar. Dieses Spiel wollen Sie nicht mitmachen und Sie denken, dass es keinen wirklichen oder gar praktischen Grund gibt, sich mit Entropie zu beschäftigen. Diese Haltung ist sehr verbreitet und ziemlich falsch. Entropie ist kein nerdiges Thema, sondern bestimmt ganz grundlegend unser Leben, von der elementaren Physik bis in den praktischen Alltag hinein.

Beispiele (nach W. Salm1)

  • Eine heisse Kaffeetasse kühlt sich mit der Zeit ab
  • Wasser verdunstet in einem offenen Gefäss
  • Angestossene Pendel bleiben nach einiger Zeit stehen
  • Eisen rostet
  • Magnete werden nach einigen Jahren schwächer
  • Gelerntes wird vergessen
  • Gekämmte Haare zerzausen sich
  • Weisse Hemden werden fleckig
  • Felsen zerbröckeln
  • radioaktive Elemente zerfallen

Es gäbe also genug Grund, sich mit dem überall im Alltag anzutreffenden Phänomen Entropie zu beschäftigen. Doch die meisten Leuten machen einen Bogen um den Begriff. Weshalb? Das hat vor allem mit dem zweiten Vorurteil zu tun.


2. Entropie ist ein durchaus verständlicher und unverzichtbarer Grundbegriff

Entropie erscheint auf den ersten Blick ziemlich verwirrlich, doch schwierig zu verstehen ist Entropie nur wegen den hartnäckigen Vorurteilen 4 und 5. Diese beiden weit verbreiteten Vorurteile sind die Schwelle, die den Begriff Entropie unverständlich erscheinen lassen. Die Schwelle zu überwinden lohnt sich und hilft nicht nur, viele reale und praktische Phänomene zu verstehen, sondern wirf auch ein Licht auf die Grundlagen, welche unsere Welt zusammenhalten.


3. Entropie spielt überall in der Natur eine Rolle

Der Begriff Entropie zwar stammt aus der Wärmelehre. Doch davon sollten wir uns nicht täuschen lassen. In Wrklichkeit ist Entropie etwas, was es überall in der Physik, in der Chemie, der Biologie und auch in der Kunst, z.B. der Musik gibt. Es ist ein allgemeiner und abstrakter Begriff und er bezieht sich ganz direkt auf die Struktur von Dingen und auf die Information, die in ihnen steckt.

Historisch gesehen wurde der Begriff vor ca. 200 Jahren in der Wärmelehre eingeführt und mit der Möglchkeit, Wärme (Energie) fliessen zu lassen, verbunden. Er half, die Wirkweise von Maschinen (Otto-Motoren, Kühlschränke, Wärmepumpen, etc.) zu verstehen. So wird der Begriff heute noch  an den Gymnasien unterrichtet.

Doch die Wärmelehre zeigt nur einen Ausschnitt von dem, was Entropie ist. Seine allgemeine Natur wurde erst 1948 von C.E. Shannon2 beschrieben. Die allgemeine Form von Entropie, auch als Shannon- oder Informationsentropie bezeichnet, ist die eigentliche, d.h. die grundsätzliche Form. Die Wärmeentropie ist ein Spezialfall.

Durch ihre Anwendung auf Wärmeflüsse In der Thermodynamik bekam die Entropie als Wärmeentropie eine konkrete physikalische Dimension, nämlich J/K, d.h. Energie/Temperatur. Doch das ist der Spezialfall Wärmelehre, in der es um Energien (Wärme) und Temperatur geht. Wenn die Entropie ganz allgemein und abstrakt verstanden wird, ist sie dimensionslos, eine reine Zahl.

Dieser Zahl hat Shannon als Entdecker der abstrakten und allgemeinen Informationsentropie einen Namen gegeben, das «Bit». Mit dem dimensionslosen Bit konnte Shannon als Ingenieur der Telefongesellschaft Bell den Informationsfluss in den Telefondrähten berechnen. Seine Informationsentropie ist dimensionslos und gilt nicht nur in der Wärmelehre, sondern überall, wo Information und Flüsse eine Rolle spielen.


4. Entropie ist die Differenz zwischen Nichtwissen und Wissen

Viele von uns haben in der Schule gelernt, dass Entropie ein Mass für das Rauschen und das Chaos ist. Der zweite Hauptsatz der Physik sagt uns zudem, dass Entropie stets nur zunehmen kann. Doch das Identifizieren von Entropie mit Rauschen oder gar Chaos ist irreführend.

Dabei gibt es gute Gründe dafür: Wenn ich einen Würfelzucker in den Kaffee werfe, löst sich seine wohldefinierte Kristallstruktur auf, die Moleküle verteilen sich ungeordnet in der Flüssigkeit und der Zucker zeigt einen Übergang von geordnet zu ungeordnet. Dieser Zerfall von Ordnung lässt sich überall in der Natur beobachten. Physikalisch gesehen ist es die Entropie, die gemäss dem zweiten Hauptsatz den Zerfall von Ordnung antreibt. Und Zerfall und Chaos sind wohl kaum mit Shannons Informationsbegriff gleichzusetzen. So dachten auch viele Wissenschaftler und setzten deshalb Information mit Negentropie (Entropie mit negativem Vorzeichen) gleich. Das passt auf den ersten Blick nicht schlecht. Entropie ist in dieser Sichtweise Rauschen und Abwesenheit von Rauschen, d.h. Negentropie, wäre dann die Information. Eigentlich logisch, nicht wahr?

Nicht ganz, denn Information steckt sowohl im Würfelzucker wie in den aufgelösten, im Kaffee schwimmenden Zuckermolekülen. In den einzel schwimmenden Molekülen steckt in gewisser Weise sogar mehr Information, weil sie sich unabhängig voneinander bewegen. Diese Bewegung ist Information. Das Problem ist unsere konventionelle Vorstellung von Information. Unsere Vorstellung ist zu statisch. Ich schlage vor, dass wir uns davon lösen und Entropie als etwas ansehen, was einen Fluss bezeichnet, nämlich den Fluss zwischen Nichtwissen und Wissen. Diese Dynamik ist kennzeichnend für das Lernen, für das Aufnehmen von neuer Information.

Jede Sekunde geschieht im Kosmos unglaublich vieles, was man wissen könnte. Die Information in der Gesamtwelt kann nur zunehmen. Das sagt auch der zweite Hauptsatz, und was zunimmt ist die Entropie, nicht die Negentropie. Wäre es da nicht viel naheliegender, Information mit Entropie und nicht mit Negentropie parallel zu setzen? Mehr Entropie würde dann mehr Information bedeuten und nicht mehr Chaos.

Wo steckt nun die Information? Im Rauschen oder in der Abwesenheit von Rauschen? In der Entropie oder in der Negentropie?

Zwei Levels

Nun, das Dilemma lässt sich lösen. Der entscheidende Schritt ist, zu akzeptieren, dass Entropie die Spannung zwischen zwei Zuständen ist, dem Übersichts- und dem Detailzustand. Der Übersichts-Blick benötigt die Details nicht, sondern sieht nur die grossen Linien. C.F. Weizsäcker spricht vom Makrolevel. Die grossen Linien sind die Informationen, die uns interessieren. Details hingegen erscheinen uns als unwichtiges Rauschen. In den Details, d.h. im Mikrolevel, steckt aber mehr Information, meist eine ganze Menge mehr, man nehme nur die Bewegungen der Wassermoleküle in der Kaffeetasse (Mikrolevel), in deren chaotischem Gewusel mehr Information steckt als in der einen Angabe der Temperatur des Kaffees (Makrolevel). Beide Levels sind verbunden und ihre Informationen hängen auf komplexe Weise voneinander ab. Die Entropie ist nun die Differenz zwischen den beiden Informationsmengen. Diese ist auf dem Detaillevel (Mikrolevel) stets grösser, denn es gibt in den Details stets mehr zu wissen als in den grossen Linien und deshalb auch mehr Information

Weil die beiden Level sich aber auf das gleiche Objekt beziehen, kann ich als Beobachter die Details oder das grosse Ganze anschauen. Beides gehört zusammen. Der Informationsgewinn an Details bezeichnet den Übergang vom Makro- zum Mikrolevel, der Informationsgewinn an Übersicht die umgekehrte Richtung.

Wo liegt nun die wirkliche Information? Auf dem Detaillevel, wo ganz viele Details beschreibbar sind, oder auf dem Übersichtslevel, wo die Informationen so zusammengefasst und so vereinfacht sind, wie sie uns wirklich interesseren?

Die Antwort ist einfach: Information enthält beides, sowohl das Makro- wie das Mikrolevel. Die Entropie ist der Übergang zwischen den beiden Levels und je nachdem, was uns interessiert, können wir den Übergang der Blickrichtung in die eine oder in die andere Richtung vornehmen.

​Beispiel Kaffeetasse

Klassisch zeigt sich das in der Wärmelehre. Die Temperatur meines Kaffees kann gesehen werden als Mass für die durchschnittliche Bewegungsenergie der einzelnen Flüssigkeitsmoleküle in der Kaffeetasse. Die Information, die in den vielen Molekülen steckt ist der Mikrozustand, die Temperatur der Makrozustand. Entropie ist das Wissen, das im Makrozustand fehlt, im Mikrozustand aber vorhanden ist. Aber für mich als Kaffeetrinker ist nur das Wissens des Makrozustandes, der Temperatur des Kaffees, relevant. Dieses ist im Mikrozustand insofern nicht vorhanden, als es nicht an einem einzelnen Molekül hängt, sondern statistisch an der Gesamtheit aller Moleküle. Erst im Makrozustand wird das Wissen über die Temperatur erfahrbar.

Für uns zeigt nur der Makrozustand eine relevante Information. Doch auch im Rauschen steckt Information. Wie genau sich die Moleküle bewegen, ist ganz klar eine Menge an Information, doch diese Details spielen für mich keine Rolle, wenn ich Kaffee trinke, nur ihre durchschnittliche Geschwindigkeit macht die Temperatur des Kaffees aus, auf die es für mich ankommt.

Der informationsreichere und sich stetig ändernde Mikrozustand steht mit der einfachen Makroinformation der Temperatur aber in einer komplexen Beziehung. Auch der Makrozustand beeinflusst den Mikrozustand, nicht nur umgekehrt, denn die Moleküle müssen sich im statistischen Rahmen bewegen, den die Temperatur vorgibt. Beide Informationen hängen voneinander ab und sind gleichzeitig im Objekt objektiv vorhanden. Nur das Betrachtungslevel ist unterschiedlich. Die Differenz der Informationsmenge in der Beschreibung der beiden Levels bestimmt die Entropie und ist ein Mass für die Information.

Diese Verhältnisse sind spätestens seit Shannon2 und C.F. Weizsäcker bestens bekannt. In den Schulen wird aber meist noch gelehrt, dass Entropie ein Mass für Rauschen ist. Das ist falsch. Entropie ist immer als Delta zu verstehen, als einen Differenz (Abstand) zwischen der Information in der Übersicht (Makrozustand) und der Information in den Details (Mikrozustand).


5. Entropie ist ein relativer Wert

Aus der Tatsache, dass Entropie immer ein Abstand, ein Delta, d.h. mathematisch eine Differenz ist, folgt auch die Tatsache, dass Entropie kein absoluter, sondern stest ein relativer Wert ist.

Beispiel Kaffeetasse
Als Beispiel nehmen wir die Kaffeetasse. Wieviel Entropie steckt da drin? Wenn wir nur die Temperatur anschauen, dann entspricht der Mikrozustand der durchschnittlichen Bewegungsenergie der Moleküle. Doch die Kaffeetasse enthält noch mehr Information: Wie stark ist der Kaffee? Wie stark gesüsst? Wie stark ist die Säure? Welche Geschmacksnoten enthält er?

Beispiel Schulhaus
Salm1 bringt das Beispiel einer Haarspange, die eine Schülerin in der Schule sucht. Wenn ich weiss, in welchem Schulzimmer die Spange ist, habe ich sie dann schon gefunden? Der Mikrozustand benennt in diesem Moment nur das Zimmer. Wo im Zimmer liegt die Spange? Vielleicht in einem Gestell? In welchem? In welcher Höhe? In welcher Schublade, welchem Karton? Der Mikrozustand lässt sich variabel präzis einstellen.

Weil die Informationsentropie stets eine Differenz ist, ist die Entropie, d.h. die Spanne zwischen Übersicht und Details stets erweiterbar auf noch mehr Details.

Die Entropie ist ein relativer Wert. Wenn wir sie absolut angeben, setzen wir – ohne das explizit zu deklarien – ein tiefstes Level (Klassenzimmer, Regal oder Schublade) fest. Das ist legal,  solange wir uns bewusst sind, dass der scheinbar absolute Wert nur den Abstand zum angenommenen Mikrolevel darstellt.

Statik und Dynamik 

Energie und Entropie sind zwei komplementäre Grössen, welche die ganze Naturbeschreibung (Physik, Chemie, Biologie) durchziehen. Die beiden Hauptsätze der Physik enthalten je einen der beiden allgemeinen Grössen E (Energie) und S (Entropie):

  1. Satz:  E = 0
  2. Satz:  ∆S ≥ 0

Die Energie bleibt im Lauf der Zeit (im geschlossenen System) konstant, die Entropie kann nur zunehmen. Mit anderen Worten: Energie ist ein statischer Wert und zeigt, was sich nicht ändert, während Entropie essentiell dynamisch ist und Flüsse anzeigt, z.B. in den Wärmemaschinen, in Shannons Strom in Telefondrähten und immer dann, wenn unsere Gedanken fliessen und wir lernen und denken.

Entropie und Zeit

Entropie ist durch den zweiten Hauptsatz (∆S ≥ 0) essentiell mit dem Phänomen Zeit verbunden. Während die Energie im geschlossenen System konstant bleibt (Noethers Theorem), ändert sich in der Zeit die Entropie und nimmt im geschlossenen System zu. Entropie kennt also die Zeit, nicht nur die Wärmeentropie im Speziellen, sondern auch die viel allgemeinere Informationsentropie.


Fazit

  • Entropie ist ein Schlüsselbegriff. Er verbindet Physik und Information.
  • Entropie stammt aus der Wärmelehre, bezieht sich aber auf Information im Allgemeinen.
  • Die Wärmeentropie ist der Spezialfall, die Informationsentropie ist der allgemeine Begriff.
  • Alles, was physikalisch, chemisch und in der Informationsverarbeitung, ob technisch oder biologisch, geschieht, hat mit Entropie zu tun. Insbesondere alles, was mit Informationsflüssen und -strukturen zu tun hat. Mit anderen Worten: Alles, was uns wirklich interessiert.
  • Entropie ist immer relativ und bezieht sich auf den Abstand zwischen dem Makro- und dem Mikrolevel.
  • Das Makrolevel enthält weniger Information als das Mikrolevel
  • Das Makrolevel enthält die Information, die interessiert.
  • Beides ist nicht absolut: Das Mikrolevel kann immer noch detaillierter geschildert werden. Das Makrolevel wird von aussen definiert: Was interessiert? Die Temperatur des Kaffees? Die Konzentration der Zuckermoleküle? Die Säure? Der Koffeingehalt …
  • Erst die Definition der beiden Zustände erlaubt es, die Entropie scheinbar absolut anzugeben. Doch was für die Entropie zählt, ist der relative Wert, das heisst das Delta zwischen den beiden Zuständen. Dieses Delta, die Entropie, bestimmt den Fluss.
  • Der Fluss geschieht in der Zeit.

1 Salm, W: Entropie und Information – naturwissenschaftliche Schlüsselbegriffe, Aulis Verlag Deubner, Köln, 1997

2 Shannon, C.E. und Weaver W: The Mathematical Theory of Information, Illinois Press, Chicago, 1949


Das ist ein Beitrag zum Thema Entropie. Siehe -> Übersichtsseite Entropie


 

Resonanz und Tonleitern

Im Gespräch mit informierten Musikern, höre ich von Ihnen oft, dass die Musiktheorie Tonleitern bereits perfekt erklärt, und zwar über die Obertonreihe. Diese jahrhundertealte Vorstellung ist nicht ganz falsch, aber auch nicht ganz richtig.

Nun ist die Obertonreihe selber zwar keine Tonleiter, doch die Theoretiker wenden mathematische Tricks an, um von der Obertonreihe doch noch unser Dur und Moll abzuleiten. Ich empfinde diese Tricks als kompliziert und willkürlich. Zudem fehlt eine physikalische Begründung für die nötigen Rechenschritte. Viel einfacher, stimmiger und physikalisch begründet ist die Erklärung nicht über die Obertonreihe, sondern über die Resonanz.

Wie die Resonanz physikalisch hinter den Tonleitern steht, erkläre ich in dieser Zusammenstellung:
–>  Resonanz als Begründung der Tonleitern

Wie gefährlich Ist Künstliche Intelligenz?

Was ist Intelligenz?

Wenn heute über Nutzen und Gefahren der KI diskutiert wird, sollte dies nicht getan werden, ohne auf den Unterschied zwischen künstlicher und natürlicher Intelligenz hinzuweisen.

Der Unterschied ist bei genauem Hinsehen evident, doch auf den ersten Blick kaum zu erkennen. Das ist die Gefahr, denn das Potenzial der künstlichen Intelligenz ist riesig. Das Dumme ist nur, dass KI zwar beeindruckend, aber nicht wirklich intelligent ist. Der Ausdruck KI,  kommt aus dem Amerikanischen (artificial Intelligence), und dort hat das Wort intelligence zwei Bedeutungen:

1) Intelligenz (wie im Deutschen)
2) Erkennung, Aufklärung (wie in CIA)

Die KI erscheint uns intelligent – im Sinn 1) – weil sie wirkliche Intelligenz von wirklichen Menschen eingebaut hat. Sie präsentiert uns auf raffinierte Weise diese wirklichen Intelligenzleistungen von echten Menschen, und tut so, als wären das ihre eigenen Intelligenzleistungen.

a) Analytische KI

Darunter fallen z.B. Gesichtserkennung, Vorschläge von Suchmaschinen usw.
Hier müssen wirkliche Menschen zuerst einen riesigen Pool (=Corpus) von Zuordnungen erschaffen. Die KI arbeitet anschliessend statistisch in diesem riesigen Pool. Je grösser er ist, umso präziser wird die statistische Aussage. Zugleich treten auch die Schwächen zutage:
Wenn der Pool zu einseitig ist (biased), dann sind auch die KI-Resultate entsprechend verformt. Die Menschen, die die Zuordnungen im Pool treffen, müssen also korrekt, bzw. im Sinn des Auftragsgebers, arbeiten. Wenn sie das tun, dann kann die KI ihre Einzelleistungen sogar locker übertreffen. Dies ist aber nur für ganz einfache Fragestellungen möglich, bei denen es ausreicht, zwischen den Einzelmeinungen zu mitteln. Wenn die Geschichte komplexer wird, ist der statistische Mittelwert nicht die gesuchte Lösung (schwarzer Schwan).

b) Generative KI

Beispiele: ChatGPT und alles was künstliche Texte und Bilder erstellt.
Hier baut das KI-Resultat ganz klar auf real vorhandenen Bestandteilen auf, z.B. realen Bildern, die raffiniert kombiniert werden und realen menschlichen Äusserungen, die als Textbausteine  zusammengestellt werden. Deshalb wirkt das auch so echt. Wir sollten uns aber von der generativen KI nicht täuschen lassen. Nur die Teile sind echt, die Zusammenstellung ist künstlich.

Die Gefahren der KI

Im Fall der analytischen KI droht die Überbetonung des statistischen Mittels («reduce to the mean«). Bei klaren Aufgabenstellungen, z.B. der medizinischen Beurteilung von Blutbildern, ist das ganz ok und sehr hilfreich. Bei komplexen Fragestellungen führt das aber zu einem Einheitsbrei (z.B. die Musikprogramme der Radiosender, die immer gleich klingende Hits bringen). Das bringt die menschliche Kultur nicht wirklich vorwärts.

Im Fall der generativen KI wird es aber wirklich gefährlich. Hier kann effektiv und bewusst gelogen werden. Je besser die generative KI wird, umso schwieriger wird es. das Fake zu erkennen. Gleichzeitig erkennen aber immer mehr Menschen, wie einfach solche Fakes zu erstellen sind – und dann verlieren sie hoffentlich zunehmend ihre Wirkung. Doch auch die Qualität der Fakes steigt. Wir können also gespannt sein, was die Zukunft bringt.


Weitere Beiträge zum Thema KI finden Sie über die Übersichtsseite Künstliche Intelligenz.

Die Schwächen der Künstlichen Intelligenz (KI)

Die Datenverabeitungs-Methode der Neuronalen Netze – allgemein und fälschlicherweise als KI, also als «Künstliche Intelligenz» bezeichnet – ist erstaunlich leistungsfähig, wenn sie richtig eingesetzt wird.

Manche fürchten sie und schreiben ihr einen eigenen Willen zu. Denn die KI eignet sich perfekt, um bei dafür empfänglichen Menschen Ängste vor einer mächtigen und undurchschaubaren Intelligenz auszulösen. Diese Ängste werden von der Unterhaltungsindustrie seit vielen Jahren bedient, um uns einen grusligen Kitzel zu verschaffen.

In der Realität sehen die Gefahren allerdings ganz anders aus. Die Neuronalen Netze (NN) sind mächtig, leiden aber unter bemerkenswerten Schwächen. Diese Schwächen sind für Laien nicht auf den ersten Blick erkennbar. Die IT-Experten kennen sie, doch wir müssen nicht erwarten, dass diejenigen, die mit KI Geld verdienen, viel Zeit verlieren, uns die Probleme im Detail zu erklären.

Ein Blick auf die Wirkweise der NN zeigt diese Schwächen klar. Er zeigt, wie die Resultate der NN zustande kommen, nämlich über eine riesige Datensammlung von Musterbeispielen, dem Lernkorpus. Die NN werten diesen Datenkorpus raffiniert aus – doch so raffiniert die Auswertung auch ist, die NN finden nur, was bereits im Korpus steckt. Alles was nicht drin steckt, wird nicht erkannt. Die NN ist somit völlig abhängig vom Korpus.


Das führt zu folgenden Schwächen:

Ineffizienz: Die Ursache

Das Aufwand/Nutzen Verhältnis von KI-Lösungen ist extrem schlecht. Riesige Mengen an Rohdaten, d.h. an Musterbeispielen sind nötig, um daraus die einfachsten Schlüsse zu ziehen. Die Schlüsse werden statistisch gezogen, deshalb braucht jeder Schluss unzählige Musterbeispiele. Ein einziges Beispiel ist statistisch irrelevant, mehr sind besser und erst richtig viele sind wirklich verlässlich. Jeder Statistiker weiss das. Auch die KI-Betreiber wissen das. Deshalb sind sie auf riesige Datenmengen angewiesen. Das hat Konsequenzen.

Ineffizienz: Riesige Serverfarmen

Wissen erscheint uns immateriell und ein Gedanke braucht praktisch keine Energie. Für die KI ist das aber nicht der Fall. Im Gegenteil, um die riesigen für die NN nötigen Datenmengen zu speichern und zu verarbeiten sind auch riesige Serverfarmen nötig. Ihr Energieverbrauch ist wirklich sehr gross. Und auf diese Serverfarmen sind die Neuronalen Netze angewiesen, da sie erst mit richtig vielen Musterdaten in die Gänge kommen und unzählige  Rechenschritte nötig sind, um aus dem Wust von Daten statistische Schlüsse zu ziehen. Neuronale Netze sind deshalb erst dann verlässlich, wenn genügend Beispiele gesammelt und durchgerechnet sind. Dazu stellen die Internetgiganten riesige Serverfarmen auf. Der Energiebedarf der KI wird schnell übersehen.

Ineffizienz: Abnehmender Grenznutzen

Die Resultate der NN sind um so verlässlicher, je kleiner die Zahl der möglichen Outcomes ist. Sobald mehr unterschiedliche Resultate möglich sind, steigt der Bedarf an Musterdaten und an Rechenzeit. Die Steigung ist nicht linear. Wenn die KI nur zwischen zwei Ergebnissen (z.B. männlich/weiblich) unterscheiden will, braucht sie relativ wenige Muster. Um vier Zustände zu unterscheiden, braucht sie aber nicht doppelt so viel, sondern ein Vielfaches mehr. Der Korpusbedarf steigt mit der Zahl der jeweils möglichen Ergebnissen (Outcomes) nicht linear, sondern exponentiell.

Ineffizienz: Nur Grosse können mithalten

Beim dem grossen Daten- und Rechenbedarf der KI ist klar, dass einzelne Forscher das gar nicht stemmen können. Auch kleinere Unternehmen können das nicht. Erst die richtig die Grossen wie Meta, Amazon, Alibaba usw. können hier mitspielen.

Selektionsbias: Unvermeidlich

Die Daten im Korpus entscheiden über die Antworten der KI. Deshalb spielt es eine grosse Rolle, welche Daten gesammelt werden. Das führte in der Vergangenheit zu Ergebnissen, die für die KI-Ersteller so unerwartet wie unwillkommen waren. So hat ein Versuch von Microsoft dazu geführt. dass der Chatbot Naziparolen ausgab, einfach weil unvorsichtigerweise Nazitexte in den Korpus eingeflossen sind. Auch ein Versuch in China soll fehlgelaufen sein, der Bot soll durch falsche Fütterung dazu gebracht worden sein, die kommunistische Partei zu kritisieren. Beides war wohl nicht im Sinn der Betreiber. Doch weil der KI-Mechanismus sich an den Korpus halten muss (das ist das Prinzip), kann er gar nicht anders als die Aussagen des für seine Programmierung gewählten Korpus zu verwenden.

Intransparenz: Korrekturen sind sehr aufwendig

Die Schlüsse der KI erfolgen auf raffinierte Weise aus den Rohdaten. Das kann sehr gut funktionieren, doch wenn es zu Fehlern kommt (siehe oben), ist das Fehlverhalten kaum zu korrigieren. Dies liegt in der Intransparenz des Prinzips, mit dem Neuronale Netze funktionieren. Ganz viele Einzeldaten führen auf statistische Weise zum jeweiligen Schluss, sodass am Ende nicht mehr zu eruieren ist, welcher/welche Datensätze genau verantwortlich sind für das jeweilige Resultat. Korrekturen von offensichtlichen Fehlschlüssen sind deshalb aufwendig und unsicher und können ihrerseits zu weiteren Fehlern führen.

Lücken: Der schwarze Schwan

Das ist die entscheidende Lücke der Neuronalen Netze. Die NN benützen nicht nur die Daten im Lernkorpus für ihre Schlüsse, vielmehr stellen diese Daten für die NN die gesamte Welt dar. Was nicht im Korpus ist, wird nicht erkannt. Und wenn der schwarze Schwan es trotzdem in den Korpus geschafft hat, wird er von der grossen Überzahl weisser Schwäne als statischer Ausreisser automatisch ausgeblendet.

Verflachung: Reduce to the mean

Was häufig ist, ist häufig. Doch es gibt immer auch Ausnahmen und oft sind es gerade die Ausnahmen, auf die es ankommt. Wenn z.B. ein Radioprogramm sich statistisch am Musikgeschmack der Mehrheit orientiert, werden interessante Musikstücke nicht gespielt. Das mag im Interesse des Radioprogramms liegen, das damit seine Reichweite verbessert. Die Intelligenz der KI hilft dem Radiosender, doch wenn das alle Radiosender machen, verflacht die Musik.

Das gleiche gilt für Texte und Bestrebungen in der Forschung. Wirklich Neues wird so nicht gefunden. Die KI hilft zwar, bewährtes Wissen und bewährte Techniken abzusichern, doch wirklich Neues liegt ihr fern.


Was steckt hinter der KI? 

Hinter der KI steckt eine bestimmte Technik der Informationsverarbeitung, die mit Neuronalen Netze operiert.
Neuronale Netze funktionieren
– rein statistisch
– mit Hilfe einer riesigen Datensammlung

Es lohnt sich, die Grundzüge der Wirkweise dieser Methode zu kennen, um KI einordnen zu können. Eine gut verständliche Übersicht finden Sie hier:

«Wie die künstliche Intelligenz zu ihrer Intelligenz kommt»

Das Buch richtet sich an alle, die in ihrem Alltag mit KI zu tun haben und wissen wollen, was da eigentlich passiert.


Weitere Beiträge zum Thema KI finden Sie über die Übersichtsseite Künstliche Intelligenz.


 

Das semiotische Dreieck

Wörter und ihre Objekte

Wenn wir sprechen, verwenden wir Wörter, um die Gegenstände unserer Umgebung zu bezeichnen. Mit den Wörtern besitzen wir die Gegenstände aber nicht, sondern bezeichnen sie nur, und wie wir alle wissen, sind Wörter nicht identisch mit den bezeichneten Gegenständen. Dass keine Identität besteht, ist offensichtlich.

Beispiele für die nicht immer logische Wortgebung finden Sie in diesem Beitrag, indem erklärt wird, weshalb die Leise laut spielt und die Laute leise.

    Abb. 1: Das Piano (Das Leise)

   Abb.2: Die Laute (Das Holz)

Wie aber sieht die Beziehung zwischen Wörtern und Gegenständen aus, wenn sie keine Identität ist? Sie kann keine 1:1-Beziehung sein, denn wir bezeichnen verschiedene Gegenstände mit dem gleichen Wort und können umgekehrt mehrere Wörter für denselben Gegenstand verwenden. Die Beziehung ist auch nicht fix, denn je nach Kontext bedeutet das gleiche Wort etwas anderes. Wörter ändern sich unaufhaltsam mit der Zeit, sie ändern ihren Klang und ihre Bedeutung.

Der Bezug von Worten und bezeichneten Objekten wird sehr erhellt durch die berühmte Darstellung des semiotischen Dreiecks von Ogden und Richards1 von 1923.

 

Das semiotische Dreieck

 

Abb 3: Das Semiotische Dreieck nach Ogden und Richards1

Die Idee des Dreiecks hat viele Vorläufer. u.a. Gottlob Frege, Charles Peirce, Ferdinand de Saussure und Aristoteles.

Ogden und Richards machen mit dem semiotischen Dreieck darauf aufmerksam, dass wir Worte, Objekte und Begriffe nicht verwechseln sollen. Die drei Spitzen des Dreiecks zeigen nämlich auf drei Bereiche, die von ihrer Natur her völlig verschieden sind.

Das Heikle dabei ist, dass wir nicht nur versucht sind, sondern dass wir zu Recht nichts anderes tun, als die drei Spitzen zusammenzubringen, so als wären sie identisch. Wir wollen nämlich, dass das Wort ein Objekt genau bezeichnet. Wir wollen, dass unsere Begriffe genau mit den Wörtern, die wir dafür verwenden übereinstimmen. Trotzdem sind die Wörter nicht die Objekte und auch nicht Begriffe.

Ogden und Richards sagen dazu: «Zwischen dem Symbol [Wort] und dem Referenten [Objekt] gibt es keine andere relevante Beziehung als die indirekte, die darin besteht, dass das Symbol von jemandem [Subjekt] dazu benutzt wird, einen Referenten zu vertreten.»

Der Bezug zwischen dem Wort (Symbol, Zeichen) und dem Objekt (Referent) ist stets indirekt und verläuft über den Gedanken von jemandem, d.h. das Wort aktiviert ein gedankliches Konzept von ‹jemandem›, d.h. von einem menschlichen Subjekt, Sprecher oder Zuhörer. Dieses gedankliche Konzept ist der Begriff.

Abb. 4: So sehen Ogden und Richards den indirekten Bezug zwischen Symbol und bezeichnetem Objekt (Referent) –> Die abgeschwächte Basislinie findet sich auch im Original. Symbol (Wort) und Referent (Bezugsobjekt) sind nur indirekt über den Gedanken in den verstehenden Subjekten miteinander verbunden.

Wenn wir uns mit Semantik beschäftigen, ist es unverzichtbar, einen Blick auf auf das Dreieck zu werfen. Nur die Begriffe in unserem Kopf verbinden die Wörter mit den Gegenständen. Eine direkte Verbindung ist eine Illusion.


Dies ist ein Beitrag zum Thema Semantik.


1 Ogden C.K. und Richards I.A. 1989 (1923): The Meaning of Meaning. Orlando: Harcourt.

 

Das Piano spielt forte und die Laute leise

Viele Leute glauben, dass jedes Wort eine bestimmte Bedeutung hat. Weil das nicht so ist, müssen wir, wenn wir Semantik betreiben, die Bedeutungen der Wörter aus dem Kontext erschliessen.

Der Kontext ist beim Wort ‹Piano› eigentlich schnell klar, er ist meistens ein musikalischer. In der klassischen Musik sind italienische Wörter angesagt, weil Italien einst das Hochland der Musik war, und Wörter wie «Andante›, ‹Sonate›, ‹Tutti› und ‹Coda› zeugen davon. So auch das ‹Pianoforte›, das Instrument, das leise (ital: piano) und laut (ital: forte) spielen kann, im Gegensatz zum Cembalo, aus dem heraus es sich entwickelt hat. Von ‹Pianoforte› hat sich der Name dann zum ‹Piano›, dem ‹Leisen›, abgeschliffen. Genauso wie das Violoncello (die kleine Violone) zum Cello (dem «Kleinen») wurde. Das Piano heisst auf Deutsch auch Klavier. Dieses Wort kommt von Clave, dem Schlüssel. Mit Schlüssel sind die Tasten gemeint. Auf Englisch gibt es digitale Pianos, d.h. Keyboards, also Schlüsselbretter. Der ‹Flügel› ist kein Vogelflügel und auch kein Engelsflügel, sondern ein grosses Klavier, oder Englisch ‹Grand Piano›. Die Orgel wiederum heisst in England Organ, also gleich wie ein Organ, wie z.B. die Leber.

Die Instrumente haben es auch sonst in sich. Die ‹Violine› ist – mit dem ‹-ine› die Verkleinerung einer ‹Viola›. Die Viola ist das Geigeninstrument, das in Altlage spielt. Sie heisst auch Bratsche, was von Arm (ital: braccio) kommt, da die Bratsche mit dem Arm gehalten wird. Im Gegensatz zu den Gamben, die auf den Beinen (ital: gambas) stehend gespielt werden. Aber auch die Violine, die ‹kleine Viola›, die keine Bratsche (Altlage) ist, wird mit dem Arm gehalten. Neben der Violine (Sopranlage) gibt es auch die Geige in Basslage, die Violone, die auch Kontrabass (engl. double bass) oder Bassgeige heisst, und von der das Cello (Violoncello) die kleine Schwester ist. Cello und Bassgeige werden zwischen die Beine gestellt, sind also keine Bratschen. Sie sind aber auch keine Gamben. Gamben sind nämlich keine Geigen, obwohl ebenfalls Streichinstrumente. Sie haben aber eine etwas andere Form, einen etwas anderen Klang und Bünde, wie die Gitarren.

Die Vorläufer der Gitarren sind die Lauten, ebenfalls Saiteninstrumente, die im Gegensatz zu den Geigen aber gezupft und nicht gestrichen werden. Obwohl ihr Name darauf hindeuten könnte, dass sie laut spielen, sind sie in der Tat eher leise. Der Name hat auch gar nichts mit der Lautstärke zu tun (im Gegensatz zum Pianoforte), sondern kommt aus dem Arabischen. Dort heissen die Lauten ‹Ud›, mit Artikel ‹Al Ud› (männlich). In Europa heisst sich das ‹Al Ud› zu ‹La Ud› geschlechtsgewandelt und wir haben die Laute.

Der Stamm ‹Ud› im Wort Laute bedeutet ursprünglich Holz. Die Laute ist also ‹das Holz›, genauso wie Trompeten und Posaunen im Orchester ‹das Blech› genannt werden. Die Streicher im Symfonieorchester sind aber nicht ‹das Holz›, obwohl sie aus Holz sind, sondern ‹die Streicher›. ‹Das Holz›, das sind die Holzbläser, also die Flöten und Oboen. Bei den Oboen steckt das auch im Wort: Oboe = haut bois = hohes Holz. Die Querflöten sind heute aus Metall, gelten aber weiterhin als Holzblasinstrumente. Ebenso die Saxophone, obwohl sie schon immer aus Blech sind. Die Hörner sind in der klassischen Musik Blechblasinstrumente aus Metall, mit Nähe zur Jagd. Im Jazz hingegen sind auch die Saxophone Hörner (horns).

Die Welt der Wörter und ihrer Bedeutungen ist voll von Widersprüchen. Simple Logik führt uns schnell in die Irre. Um computergängige Semantik zu betreiben, muss man sich auf einiges gefasst machen 😉


Dies ist ein Beitrag zum Thema Semantik.


Vier Versuche, Semantik formal zu packen

Semantik: Was steckt hinter den Wörtern?

Das Thema Semantik interessiert heute viele Leute. Viele realisieren, dass Wörter nicht alles sind, sondern dass hinter den Wörtern Bedeutungen stecken, die sehr variabel sind und auf die es eigentlich ankommt. Gerade im Internet spielt das eine grosse Rolle. Je grösser das Netz wird, umso schwieriger wird die Suche. Was ist, wenn die gesuchte Adresse unter einem ganz anderen Wort zu finden ist, als ich annehme? Denken wir nur an die vielen Synonyme. Dazu kommen Ober- und Unterbegriffe und unterschiedliche Sprachen. Ideal wäre es, wenn ein sprachunabhängiges System der Bedeutungen existieren würde, ein System, dass Synonyme genauso kennt wie verschiedene Sprachen, Englisch, Französisch, Deutsch, Arabisch, Chinesisch etc. Dann müsste man nur noch die Wörter der jeweiligen Sprache in das semantische System hineinprojizieren. Geht das?

Versuch 1: Semantische Annotation (n:1)

Eine einfache «Semantische Annotation» ist für viele die naheliegende Lösung. Dabei gilt es, jedem Wort seine Bedeutung, d.h. seine eigentliche Semantik, zuzuweisen.

Nehmen wir eine Sprache, z.B. Deutsch und eine Domäne, z.B. Medizin. Das Ziel der semantischen Annotation wäre dann, das gesamte Vokabular der Domäne, also alle ihre Wörter auf eine grundlegende Semantik abzubilden. In dieser existiert dann ein einziger Punkt für den Begriff «Fraktur», und dieser semantische Zielpunkt wird erreicht durch Wörter wie «Fraktur», «Knochenbruch», «fracture», etc. Es handelt sich ja in der Tat um dasselbe, unabhängig davon, welche Wörter ich verwende. Das gilt auch für «Bruch», z.B. in «Beinbruch», «Bruch des Beins», «Bruch der Tibia» und «Bein gebrochen».

Alle diese Formulierungen müssen auf den gleichen semantischen Punkt kommen. Dabei können wir nicht auf die Grammatik gehen, sondern müssen Wörter auseinandernehmen können (Beinbruch), und aus Verben (gebrochen) Substantive machen können. Brüche gibt es viele, solche von Knochen, aber auch von Leisten, Ehen, Implantaten, Brillen etc. Eine einfache Annotation wird daraus kaum werden, sicher keine 1:1 oder n:1 Annotation.

Und wenn verschiedene Fachgebiete gemischt werden, wird es noch heikler: Ein Bruch ist ja nicht nur ein Knochenbruch, sondern auch ein Bruch in der Mathematik. Also etwas ganz anderes. Wie annotiere ich «Zürich»? Als Stadt, als Kanton, als Versicherung? «Berlin» kann je nach Kontext auch für das deutsche Kanzleramt stehen; ein «Berliner» ist ein Bürger oder eine Backware.

Fazit: Eine semantische Annotation ist komplex und ganz gewiss nicht mit einer einfachen n:1 Tabelle lösbar. Um wirklich semantisch zu annotieren, d.h. den Wörtern Bedeutungen zuzuweisen, muss man tiefer in die eigentliche Semantik einsteigen.

Versuch 2: Semantic Web

Initiator des Semantic Webs war der berühmte WWW-Erfinder Tim Berners-Lee. Seine Beobachtung war, dass im WWW die gesuchten Seiten zwar oft vorhanden, aber in der Fülle nicht auffindbar waren. Dem wollte er abhelfen, in dem er das Web selber semantisch machen wollte. Also nicht mehr die Anwender sollten die Semantik (Inhalte) der Internetseiten ergründen, sondern Berners-Lee’s Idee war, dass die Seitenanbieter im WWW ihre Semantik selber deklarieren. Auf diese Weise wäre gesuchte Annotation bereits verhanden. Und zwar nicht einfach als isolierter Punkt, wie «Zürich», sondern typisiert, also z.B. als «Stadt: Zürich». Die Typisierung ist ein echter und zweckmässiger Fortschritt. Der Charme der Typisierung besteht darin, dass die Mehrdeutigkeit angegangen werden. Ob Zürich nun die Stadt, den Kanton oder die Versicherung meint, kann durch ein entsprechend gebautes semantisches Netz klar unterschieden werden.

Das Problem ist nur: Welcher Seitenbetreiber macht sich die Mühe, seine Seite entsprechend semantisch zu verschlagworten? Und das Ganze funktioniert nur, wenn sich alle an das gleiche Einordnungssystem halten. Dazu kommen weitere Probleme, die sehr typisch sind für Versuche, ein semantisches Netz zu bauen. Ein solches Netz zu erstellen ist alles andere als banal, denn der Teufel steckt im Detail.

Und sobald das Netz einmal steht, kann es nicht mehr so einfach verändert werden. Das führt dann schnell zu faulen Kompromissen, Komplizierungen, Unschärfen, Varianten und Diskussionen.

Die grundlegende Frage dabei ist: Wie strukturieren wir das semantische Netz? Ich meine die abstrakte formale Struktur. Gibt es Oberbegriffe? Eigenschaften? Überschneidungen? Wie werden sie formal dargestellt? Gibt es eine «Logik» in der Semantik? Wir sind hier im Kern der wissenschaftlichen Semantik und meine Behauptung ist, dass die Scientific Community hier noch einiges dazuzulernen hat. Das Semantic Web basiert z.B. auf der RDF und OWL, zwei komplexen formalen Sprachen, welche kompliziert, unhandlich und trotzdem in ihren Möglichkeiten beschränkt sind.

Wenn die Annotation von den Seitenanbietern durchgeführt wird, können wir wegen des dafür nötigen Aufwands keine Durchgängigkeit und auch keine Einheitlichkeit erwarten.

Ideal wäre eine Software, welche die semantische Interpretation selbstständig und von aussen, also auf vorbestehende und frei formulierte Texte durchführen kann. Gibt es die? –

Die Antwort ist ja. Es gibt sogar zwei Herangehensweisen, die eine ist statistisch, die andere ist semantisch. Schauen wir zuerst die statistische an:

Versuch 3: Neuronale Netze (KI)

Neuronale Netze (NN) sind besser bekannt unter dem Namen «Künstliche Intelligenz«. Diese Systeme funktionieren über einen Lernkorpus, der viele Muster von Zuweisungen enthält, die vom NN maschinell  auf raffinierte Weise integriert werden. Anschliessend ermöglicht das NN weitere, bisher unbekannte Inputs auf die gleiche Weise zu verarbeiten wie im Lernkorpus. Es hat also die Interpretation «gelernt». Das kann sehr beeindruckend sein, und auch sehr nützlich. Allerdings kann das NN nichts wiedergeben, was nicht im Lernkorpus auf ähnliche Weise vorgegeben war. Die bekannten Schwächen der NN sind:

– Riesiger Lernkorpus nötig.
– Nur was im Korpus enthalten ist, kann erkannt werden.
– Seltenes mit grossen Auswirkungen (Black Swan) wird übersehen.
– Intransparenz der Schlüsse.
– Fehler im Korpus sind kaum korrigierbar.

Trotzdem sind Neuronale Netze für viele Anwendungen unglaublich effizient. Doch sie sind nicht semantisch. Sie urteilen nicht nach den Bedeutungen der Wörter, sondern nach statischen Gesichtspunkten. Was häufig zusammen vorkommt, gehört für sie zusammen. Das ist natürlich alles andere als sicher. Seltenere Bedeutungen fallen so unter den Tisch. Und was bedeuten die Wörter und Sätze überhaupt? Neuronale Netze zeigen nur statistische Nähe und überlassen die Bedeutungen dem Leser. Formale Musterekennung ist eine Stärke der Neuronalen Netze. Semantik nicht. Die Lösungen von Versuch 2, das Semantic Web der RDFs and OWL waren da schon näher dran.

Allerdings: In der Praxis haben die NN der kommerziellen Software-Anbieter die akademisch fundierten Versuche des Semantic Webs deutlich überholt. Die NN sind zwar nicht semantisch, aber sie sind im gegensatz zum Semantic Web real einsetzbar.

Ideal wäre jedicg eine Lösung, welche die Bedeutungen der Wörter auf eine ähnliche Weise findet, wie wir Menschen. Also ein Ansatz, der wirklich semantisch ist. Gibt es diesen?

Versuch 4: Begriffsmoleküle (BM)

Begriffsmoleküle sind eine Parallelentwicklung zum Semantic Web. Wie dieses setzen sie eine semantische Modellierung der anvisierten Wissensdomäne voraus. Der Unterschied liegt in der Art, wie die Semantik modelliert wird und wie Schlüsse gezogen werden. Sowohl das OWL des Semantic Web wie die alternativen Begriffsmoleküle sind regelbasiert, im Gegensatz zu den Neuronalen Netzen der KI, die korpusbasiert sind. Als regelbasierte Systeme sind OWL und BM transparent und können Schritt für Schritt untersucht werden. Ihre Begriffe zeigen eine klare Anordnung (semantische Architektur). Ihre Schlüsse sind formal geregelt. Das ist die Gemeinsamkeit. Der Unterschied liegt in der Art der semantischen Architektur und der Art der Schlussziehung (Inferenzmechanismus). Generell lässt sich sagen, dass die BM freier und offener sind als OWL.

Wie ist es möglich, eine freie und dynamische Semantik darzustellen und dabei so formal zu bleiben, dass unsere Gedanken für eine Maschine nachvollziehbar ist? Begriffsmoleküle versuchen genau das. Es geht dabei darum, zu modellieren, wie wir den gehörten Wörtern Bedeutungen zulegen.


Dies ist ein Beitrag zum Thema Semantik.


 

Mathematik und Physik

«A mathematician may say anything he pleases, but a physicist must be at least partially sane»
(Josiah Williard Gibbs)

«Ein Mathematiker kann sich irgendetwas ausdenken und es innerhalb der Mathematik beweisen. Ob es in der Realität funktioniert, zeigt die Realität.»
(hrs)


Ich mag Mathematik

Ich mag Mathematik. Darin unterscheide ich mich von den meisten meiner Freunde; die meisten wollen möglichst nichts mit Mathematik zu tun haben. Das hat nichts mit der Intelligenz meiner Freunde zu tun – vielmehr bestreiten sie, dass Mathematik für sie persönlich hilfreich sein könnte.

Das ist das eine Lager, quasi das Hauptlager der Menschheit. Im Gegenlager finden sich die Menschen, welche glauben, dass die ganze Welt aus nichts als aus Mathematik besteht. Wenn wir nur die Axiome – z.B. der Mengenlehre – akzeptieren, könnten wir daraus die ganze Welt aufbauen.

Ich verrate kein Geheimnis, wenn ich gestehe, dass ich mich weder zum einen noch zum anderen Lager zähle. Mathematik ist ein unglaublich scharfes Werkzeug und ermöglicht tiefe Erkenntnisse über das Funktionieren unserer Welt. Gleichzeitig ist Mathematik prinzipiell von ihrem Wesen her beschränkt, so kräftig und überzeugend sie in ihrem ureigenen Bereich auch ist.

Die spannende Frage für mich ist: Wie ordnet sich die Mathematik in die Realität ein?


Abgeschlossenes System

Eine charakteristische Eigenheit der mathematischen Welt ist, dass abgeschlossene Systeme untersucht werden, z.B. die Menge der natürlichen Zahlen. Abgeschlossene Systeme können konsequent und logisch untersucht werden, und die gewonnen Aussagen sind deshalb sehr sicher wahr – für das untersuchte System.

Obwohl die Menge der natürlichen Zahlen unendlich ist, ist sie doch abgeschlossen, insofern, als die Grenzen klar sind: für jede Zahl kann ausgesagt werden, ob sie zur Menge gehört oder nicht: 25399275933184 z.B. gehört dazu, nicht aber 1/2, π oder -1 .

Vorteil Mathematik: Die Abgeschlossenheit mathematischer Systeme ist die Basis für die Sicherheit der Aussagen. Weil das System geschlossen ist, können (fast! ← Gödel) alle Aussagen klar auf ihren Wahrheitswert überprüft werden.

Nachteil Mathematik: Die Aussagen gelten aber nur für das geschlossene System. Die reale Welt ist immer offen.

Konsequenz: Mathematische Systeme beschreiben eindrücklich das Verhalten physikalischer Objekte und Systeme. Allerdings sind letztere stets offen. Das stellt uns vor die Aufgabe, die Wahl des passenden mathematischen System sehr sorgfältig zu überprüfen und gegebenenfalls anzupassen. Wahl und Anpassung des mathematischen System erfolgen logischerweise stets ausserhalb des mathematischen Systems.


Abstraktion

Mathematik ist platonisch; d.h. die Elemente der Mathematik sind ausserhalb von Raum und Zeit. Nur so können sie ‹ewig› gültig sein.

Physik hingegen beschäftigt sich mit Objekten, die sich innerhalb von Raum und Zeit befinden.

Die Abstraktion (Mathematik) ist immer einfacher als die Verhältnisse (Physik), auf die sie sich bezieht.

Vorteil Mathematik: Mathematische Wahrheiten sind zeit- und ortsunabhängig. Die Wahrheit (Widerspruchsfreiheit) kann innerhalb des Systems (meistens! ← Gödel) bewiesen werden. Sobald eine mathematische Wahrheit einmal mathematisch korrekt  erkannt ist, erübrigen sich weitere Diskussionen über ihren Wahrheitswert.

Nachteil Mathematik: Mathematische Aussagen gelten nur innerhalb der Mathematik, d.h. innerhalb der Abstraktion. Gelten sie auch ausserhalb, d.h. in der Realität? Diese Frage kann nicht innerhalb der Mathematik abschliessend beantwortet werden. – Weshalb nicht? Antwort: Die Korrektheit der Schlüsse gilt nur innerhalb der Abstraktion, doch ist die Abstraktion auf die Realität anwendbar? Diese Frage kann eben nicht innerhalb der Mathematik beantwortet werden, da sie die Abstraktion prinzipiell überschreitet.


Die hilfreiche Mathematik und ihre Grenze

Abb 1:Abstraktion und geschlossenes System
(IPT = Interpretationstheorie)

Die Physik versucht, ihren Stoff in eine mathematische Form zu bringen. Dabei ist sie höchst erfolgreich, was nicht nur für die Leistung der Physiker, sondern auch für die Eignung, Raffinesse und Kohärenz der mathematischen Modelle spricht.

Doch die entscheidende Frage kann nur in der Realität, d.h. von der Physik beantwortet werden, nämlich:

Ist die Abstraktion korrekt, d.h. ist das – immer vereinfachte! – mathematische Modell auch anwendbar? – Diese Frage kann nur ausserhalb von der Mathematik beantwortet werden.


LDC – mehr als ein Zettelkasten

LDC steht für «Logodynamische Karten» und ist ein neuartiges Browser-Programm.

Die Basis ist ein digitaler Zettelkasten, in dem Sie ihre Notizen festhalten und beliebig anordnen. Sie können spontan Ihre neuen Ideen festhalten, interessante Seiten im Internet damit verbinden, Stichwörter zu Texten ausbauen und Informationen strukturieren und immer wieder neu zusammenstellen.

Als Benutzer können Sie Ihre Karten mit anderen Benutzern austauschen. Zudem bietet Ihnen LDC die Möglichkeit, die Logik von Meinungen und Argumenten auf eine neuartige Weise visuell am Bildschirm darzustellen.

LDC steht für Sie bereit! Besuchen Sie die LDC-Startseite!