Schlagwort-Archive: Entropie

Entropie: Schlüssel zur Informationstheorie


Entropie ist mehr als Wärmelehre

Der Begriff Entropie stammt ursprünglich aus der Wärmelehre und ergänzt dort den Begriff der Energie. Entropie ist aber viel mehr, nämlich als Informationsentropie nach Claude Shannon auch ein Mass für Information.  Die zugehörige Masseinheit ist das Bit. Trotz seiner enormen Bedeutung in der Physik, der Informationstheorie, aber auch im Alltag, gilt der Begriff der Entropie als nerdig und kaum verständlich. Das wäre nicht nötig.

Fünf weit verbreitete Vorurteile erschweren das Verständnis dieses wichtigen Begriffs in der Physik und im Alltag:

Die Entropie spielt auch eine Rolle beim Unterschied zwischen Bits und Distinction nach Spencer-Brown:


Informationsreduktion

Mit der Entropie eng verbunden ist das Phänomen der Informationsreduktion.

Logische Systeme sind immer Vereinfachungen der viel komplexeren und detailhaltigeren Realität. Um zu verstehen, wie wir denken, müssen wir uns mit dieser notgeborenen und unausweichlichen Beschränkung unseres Wissens um die Realität abfinden. Zu diesem natürlichen Vorgang der Informationsreduktion habe ich ab 2019 eine kleine Beitragsserie geschrieben:

Das Thema der Informationsreduktion irritiert viele,  doch wir befinden uns damit auf den Spuren von zwei der wichtigsten europäischen Philosophen, nämlich von William Ockham (Ockhams Razor) und Sokrates (Ich weiss, dass ich nichts weiss).


Entropie wird in Bits gemessen und ist eine der Grundlagen von Information -> Übersichtsseite Informationstheorie


 

Entropie zwischen Mikro- und Makroebene


Die zwei Ebenen der Entropie: Mikro und Makro

Zwei Ebenen definieren die Entropie

Die schulmässige physikalische Definition der Entropie weist diese als eine Differenz zwischen zwei Ebenen aus: einer Detail- und einer Übersichtsebene.


Beispiel Kaffeetasse

Klassisch ist die thermale Entropie nach Boltzmann, am Beispiel eines idealen Gases. Die Temperatur (1 Wert) ist direkt verbunden mit den Bewegungsenergien der einzelnen Gasmoleküle (1023 Werte). Mit gewissen Anpassungen gilt das für jedes materielle Objekt, z.B. auch für eine Kaffeetasse:

  1. Thermischer Makrozustand: Temperatur der Flüssigkeit in der Tasse.
  2. Thermischer Mikrozustand: Bewegungsenergie aller einzelnen Moleküle in der Tasse

Die Werte von a) und b) sind direkt verbunden. Die Wärmeengergie der Flüssigkeit, die sich in der Temperatur des Kaffees äussert, setzt sich zusammen aus den Bewegungsenergien der vielen (~ 1023) einzelnen Moleküle in der Flüssigkeit. Je schneller sich die Moleküle bewegen, umso heisser ist der Kaffee.

Die Bewegung der einzelnen Moleküle b) ist jedoch nicht konstant. Vielmehr stossen sich die Moleküle andauernd und ändern dabei ihre Geschwindigkeit und damit auch ihre Energie. Trotzdem ist die Gesamtenergie nach jedem Stoss die gleiche. Wegen dem Energiesatz ändert sich bei jedem Stoss zwar die Energie der beteiligten Moleküle, die Energie aller beteiligten Moleküle zusammen bleibt aber erhalten. Auch wenn der Kaffee langsam abkühlt, oder wenn die Flüssigkeit von aussen erhitzt wird, bleibt der Zusammenhang erhalten: Der einzelne Übersichtswert (Temperatur) und die vielen Detailwerte (Bewegungen) hängen immer gegenseitig voneinander ab.


Beispiel Wald und Bäume

Das bekannte Sprichwort warnt, vor lauter Bäumen den Wald nicht mehr zu sehen.

Wald: Makroebene

Wald: Mikroebene

Auf der Mikroebene sehen wir die Details, auf der Makroebene erkennen wir das grosse Ganze.

Welche Sicht ist nun besser? Die auf den Wald oder auf die Bäume?

  • Sowohl Makroebene wie Mikroebene sind sinnvoll – je nach Aufgabe
  • Beides bezieht sich auf das gleiche Objekt.

Beides ist nicht im gleichen Moment zu sehen:

  • Sieht man die Bäume, verpasst man den Wald
  • Erkennt man den Wald, sieht man nicht alle einzelnen Bäume

Generell glauben wir, dass es besser sei, alle Details zu kennen. Doch das ist eine Täuschung. Wir brauchen immer wieder die Übersicht. Und wir würden uns verlieren in den Details.


Wo ist nun die Entropie?

Wir können nun alle Details der Mikrosicht aufzählen und erhalten so den Informationsgehalt – z.B. in Bits – des Mikrozustandes. Von diesem können wir den viel kleineren Informationsgehalt der Makrosicht abzählen. Die Differenz, die wir erhalten ist die Entropie, nämlich die Information, die im Mikrozustand (Bäume) vorhanden ist, im Makrozustand (Wald) aber fehlt. Die Differenz ist die Entropie.


Warum ist nicht der Informationsgehalt auf der Mikroebene die absolute Entropie?

Der Informationsgehalt auf der Mikroebene lässt sich in Bits berechnen. Entspricht diese Bitmenge der Entropie? Dann wäre der Informationsgehalt auf der Makroebene einfach eine Reduktion der Information. Die eigentliche Information würde dann in der Mikroebene der Details stecken.

Das ist die spontane Erwartung, die ich bei Gesprächspartnern immer wieder antreffe. Sie nehmen an, dass es einen absoluten Informationsgehalt gibt, und der ist in ihren Augen selbstverständlich derjenige mit der grössten Menge an Details.

Das Problem dabei ist: Ds ‹tiefste› Mikrolevel ist gar nicht eindeutig definiert. Die Bäume sind bezogen auf den Wald das tiefere Informationslevel – doch damit ist nicht die tiefste Detailebene erreicht. Man kann die Bäume auf ihre Bestandteile hin – Aste, Zweige, Blätter, Würzeln, Stamm, Zellen usw. – beschreiben, was zweifellos ein tieferes Level ist und noch mehr Details enthalten würde. Doch auch dieses Level wäre nicht tief genug. Wir können durchaus noch tiefer in die Details gehen, und die verschiedenen Zellen des Baumes beschreiben, die Organellen in den Zellen, die Moleküle in den Organellen usw. Wir würden dann weiter bei der Quantenebene ankommen. Doch ist das die tiefste? Vielleicht, doch sicher ist das nicht. Und je weiter wir in die Details gehen, umso mehr entfernen wir uns von der Beschreibung des Waldes. Was uns interessiert ist die Beschreibung des Waldes und dafür ist das tiefste Level gar nicht nötig. Wir tiefer unten wir es suchen, umso mehr entfernen wir uns von der Beschreibung unseres Objekts.

→ Die Tiefe des Mikrolevels ist nicht eindeutig definiert !

Wir können deshalb für unsere Betrachtung nicht von einer eindeutigen absoluten Entropie eines bestimmten Objekts ausgehen. Weil das Mikrolevel beliebig tief ansetzbar ist, ändert sich auch die Entropie, d.h. der quantitative Informationsgehalt auf dieser Ebene. Je tiefer, umso mehr Information, umso höher die Entropie.


Gibt es ein absolutes Makrolevel?

Wie das Mikrolevel ist auch das höchste Informationslevel, z.B. eines Waldes, nicht eindeutig definiert.

Ist dieses Makrolevel das Bild, das eine optische Sicht auf den Wald darstellt, wie es ein über ihm fliegender Vogel sieht? Oder ist des die Darstellung des Waldes auf einer Landkarte? In welchem Masstab? 1:25’000 oder 1:100’000? Offensichtlich ändert sich je nach Sicht die Informationsmenge des jeweiligen Makrozustandes.

Was interessiert uns, wenn wir den Wald beschreiben? Die Wege durch den Wald? Die Baumarten? Hat es Rehe und Hasen? Wie gesund ist der Wald?

Mit anderen Worten: Der Wald kann wie jedes Objekt auf sehr unterschiedlichen Weise beschrieben werden.

Es gibt kein eindeutiges, absolutes Makrolevel. Je nach Situation und Bedürfnissen gilt eine andere Makrodarstellung.


Die Relativität von Mikro- und Makroebene

Auf jeder Ebene gibt es eine jeweilige quantitative Menge an Information, je tiefer umso reichhaltiger, je höher, umso übersichtlicher. Doch es wäre ein Irrtum, eine bestimmte Ebene mit ihrer Informationsmenge als die tiefste oder die höchste zu bezeichnen. Beides ist willkürlich.


Die Information ist die Differenz

Sobald wir akzeptieren, dass sowohl das Mikro- wie das Makrolevel in beliebiger Höhe angesetzt werden können, nähern wir uns einem realeren Informationsbegriff. Es macht plötzlich Sinn, von einer Differenz zu sprechen. Die Differenz zwischen den – jeweils gewählten! – beiden Ebenen definieren die Spanne des Wissens.

Die Information, die ich gewinnen kann, ist die Information, die mir im noch Makrolevel fehlt, die ich aber im Mikrolevel finde. Die Differenz zwischen den beiden Ebenen bezüglich ihrer Entropie ist die Information, die ich dabei gewinnen kann.

Umgekehrt, wenn ich die Details der Mikroebene vor mir habe und eine Übersicht gewinnen will, muss ich diese Information der Mikroebene vereinfachen, und ich muss ihre Bitzahl reduzieren. Diese Reduktion ist die Entropie, d.h. die Information, die auf die ich bewusst verzichte.


Das Informationsparadox

Wenn ich aus einem Wust von Details die Information herausholen will, die mich interessiert, wenn ich also von der Detailbeschreibung zur verwertbaren Information gelangen will, dann muss ich ganz viel Informationen der Mikroebene unter den Tisch fallen lassen. Ich muss Information verlieren, um meine gewünschte Information zu erhalten. Dieses Paradox liegt jedem Analysevorgang zugrunde.


Information ist relativ und dynamisch

Was ich vorschlage ist ein relativer Informationsbegriff. Das entspricht nicht der Erwartung der meisten Mitmenschen, die eine statische Vorstellung von der Welt haben. Die Welt ist aber grundlegend dynamisch. Wir bewegen uns in dieser Welt wie alle anderen Lebewesen als informationsverarbeitende Existenzen. Die Verarbeitung von Information ist ein alltäglicher Vorgang für alle von uns, für alle biologischen Existenzen, ob Pflanzen, Tiere oder Menschen.

Die Verarbeitung von Information ist für alle Lebewesen ein existentieller Prozess. Dieser Prozess hat stets ein Vorher und ein Nachher. Je nachdem gewinnen wir Information, wenn wir etwas im Detail näher ansehen. Und wenn wir eine Übersicht gewinnen wollen, oder einen Entschluss (!) fassen, dann müssen wir Information vereinfachen. Wir gehen also von einer Makrobeschreibung zu einer Mikrobeschreibung und umgekehrt. Information ist dabei eine dynamische Grösse.

Entropie ist die Information, die im Makrolevel fehlt, im Mikrolevel aber zu finden ist.

Und umgekehrt: Entropie ist die Information, die im Mikrolevel vorhanden ist, im Makrolevel – also zur Gewinnung einer Übersicht – ignoriert wird.


Objekte und ihr Mikro- und Makrolevel

Wir können davon ausgehen, dass ein bestimmtes Objekt auf verschiedenen Stufen beschrieben werden kann. Ob eine tiefste Beschreibungsebene zu finden ist, ist gemäss aktuellen naturwissenschaftlichen Erkenntnissen ungewiss, doch für unsere informationstheoretischen Überlegungen letztlich irrelevant. Genauso ist es nicht sinnvoll von einer höchsten Makroebene zu sprechen. Die Makroebenen richten sich nach der Aufgabe der jeweiligen Betrachtung.

Was aber relevant ist, ist der Abstand, also die Information, die im Makrozustand zu gewinnen ist, wenn tiefere Details in die Sicht integriert werden, oder wenn sie – zwecks besserer Übersicht – verworfen werden. Beidemale geht es um eine Differenz zwischen zwei Beschreibungsebenen.

Die Darstellung oben visualisiert die Menge der erkannten Bits in einem Objekt. Oben bei der Makrospitze sind es wenige, unten im Mikrolevel sind es viele. Das Objekt bleibt das gleiche, ob nun viele oder wenige Details berücksichtigt, bzw. erkannt werden.

Die Makrosicht bringt wenige Bits, doch ihre Auswahl wird nicht vom Objekt allein bestimmt, es kommt vielmehr auch auf das Interesse hinter der Sichtweise an.

Die Zahl der Bits, d.h. die Entropie nimmt von unten nach oben ab. Das ist aber nicht eine Eigenschaft des Objekts der Betrachtung, sondern eine Eigenschaft der Betrachtung selber. Je nachdem sehe ich das Objekt anders, einmal detailliert und unübersichtlich, ein anderes Mal übersichtlich und vereinfacht, d.h.einmal mit viel und ein anderes Mal mit weniger Entropie.

Die Informationsgewinnung ist der dynamische Vorgang, der entweder
a) mehr Details erkennt: Makro → Mikro
b) mehr Übersicht gewinnt: Mikro → Makro

Beidemale wird die Informationsmenge (Entropie als Bitmenge) verändert. Die gewonnenen oder verlorenen Bits entsprechen der Differenz der Entropie von Mikro- und Makrolevel.

Wenn ich das Objekt in den Blick nehme, enthüllt es je nach Betrachtungsweise mehr oder weniger Information. Information ist dabei stets relativ zum Vorwissen und dynamisch zu verstehen.


Das ist ein Beitrag zum Thema Entropie. Siehe -> Übersichtsseite Entropie


 

Entropie und Information

Entropie und Information

Der Begriff Entropie wird gerne vermieden, weil er eine gewisse Komplexität enthält, die sich nicht wegdiskutieren lässt.
Doch wenn wir über Information sprechen, müssen wir auch über Entropie sprechen. Denn Entropie ist das Mass für die Informationsmenge. Wir können nicht verstehen, was Information ist, ohne zu verstehen, was Entropie ist.

Information ist immer relativ.

Wir glauben, dass wir Information packen können, so wie wir Bits in einem Speichermedium ablegen. Die Bits sind dann die Information, die objektiv verfügbar ist. Wir haben uns so sehr an dieses Bild gewöhnt, dass wir glauben, dass Information in kleinen Kügelchen daherkommt, die ja und nein sagen können. Doch dieses Bild täuscht.

Denn natürlich sagen die Kügelchen nicht ‹ja› oder ’nein›, nicht 0 oder 1, nicht TRUE oder FALSE, und auch sonst nichts bestimmtes. Bits haben gar keine Bedeutung, es sei denn, man habe diese Bedeutung von aussen her definiert. Dann können sie sehr gut 1, TRUE, ‹Ich komme heute zum Abendessen› oder irgend etwas anderes aussagen, jedoch erst zusammen mit ihrer Umgebung, ihrem Kontext.

Aus dieser Überlegung wird klar, dass Information relativ ist. Das Bit bekommt seine Bedeutung erst aus einer bestimmten Einordnung heraus. Je nachdem bedeutet es 0 oder 1, ‹Wahr› oder ‹Falsch›, usw. Das Bit ist an seinem Platz zwar gesetzt, doch seine Bedeutung bekommt es erst durch seinen Platz.
Somit muss der Platz, also der Kontext mit hineingenommen werden, damit klar wird, was das Bit bedeuten soll. Und natürlich ist die Bedeutung relativ, das heisst, das gleiche Bit, kann in einem anderen Kontext, einem anderen Platz eine ganz andere Bedeutung haben.

Diese Relativität ist nun charakteristisch nicht nur für das Bit, sondern für jede Art Information. Jede Information bekommt ihre Bedeutung erst durch den Kontext, in dem sie steht. Sie ist also relativ. Denken Sie das am besten an Beispielen aus Ihrem Leben durch. Information ist nicht das Signal, das auf ‹ja› oder ’nein› steht. Dieses Signal ist nur das Signal. Was es bedeutet, wird erst klar, wenn Sie das Signal aus Ihrer Warte heraus interpretieren, wenn Sie es aus Ihrem Kontext heraus ansehen.
Erst dann bekommt das Signal für Sie eine Bedeutung. Diese Bedeutung liegt nicht absolut, d.h. isolierbar im Signal Bit, sondern relativ in der Interaktion zwischen Ihrer Erwartung , dem Kontext, und der Stellung des Schalters, der auf ON oder OFF gestellt sein kann. Dieser Schalter ist das Bit. Seine Bedeutung an sich, also wenn das Bit isoliert wird, ist nur ON oder OFF.
Alles andere liegt in der Umgebung.

Definition der Entropie

In Anbetracht der Tatsache, wie wichtig Information und Informationstechnologien sind, ist es schon erstaunlich, wie wenig bekannt die wissenschaftliche Defintion von Entropie, also von Information ist:

Entropie ist das Mass für die Information, die im Mikrozustand bekannt ist, im Makrozustand aber nicht.

Die Entropie hängt somit eng mit der Information auf Mikro- und Makrolevel zusammen, und sie kann als ‹Abstand› oder Differenz der Information auf den beiden Informationsebenen gesehen werden.

Mikro- und Makroebene

Was ist mit diesem Abstand zwischen Mikro- und Makroebene gemeint? – Die Mikroebene enthält die Details (also viel Information), die Makroebene die Übersicht (also weniger, dafür gezieltere Information). Der Abstand zwischen den beiden Ebenen kann sehr klein sein (wie beim Bit, wo das Mikrolevel gerade zwei Informationen kennt: on oder off ) oder aber riesig gross, wie z.B. bei der Temperatur (Makrolevel)  des Kaffees, wo Bewegungsenergien der vielen Moleküle (Mikrolevel) die Temperatur des Kaffees bestimmt. Die Zahl der Moleküle liegt in diesem Fall in der Grössenordnung der Avogadroschen Zahl 1023, also ganz schön hoch, und die Entropie des Kaffees in der Tasse ist entsprechend wirklich sehr hoch.

Andererseits gibt es auch ‹kleine› Informationen, die sehr nahe an der Grössenordnung eines Bits (Infogehalt = 1) heran kommen. Immer aber kommt es auf das Verhältnis von Mikro- zu Makrozustand an. Dieses Verhältnis – also was im Mikrozustand gewusst wird, im Makrozustand aber nicht – definiert die Information.

Die Komplexität des Makrozustandes

Der Makrozustand enthält stets weniger Information als der Mikrozustand, er ist eine gezielte Vereinfachung der Information des Mikrozustandes.

For example: a certain individual (micro level), can belong to the collective macro groups of Swiss inhabitants, computer scientists, older men, contemporaries of the year 2024, etc., all at the same time.

Das führt dazu, dass der gleiche Mikrozustand verschiedene Makrozustände beliefern kann. Zum Beispiel: Ein Individuum des Mikrolevels kann in der komplexen Welt der Gesellschaft mehreren Makrogruppen angehören, also gleichzeitig den Makrogruppen der Schweizer, der Informatiker, der älteren Männer, der Zeitgenossen des Jahres 2024 usw. Alle diese Makrogruppen bestehen aus vielen Individuen und sie überschneiden und durchdringen sich auf wechselnde Weise.

Die Möglichkeit, aus verschiedenen Mikrozuständen gleichzeitig mehrere Makrozustände herauszuziehen, ist charakteristisch für die Komplexität von Mikro- und Makrozustand und somit auch für die Entropie.

So einfach lässt sich also die Entropieüberlegung nicht in komplexere Netze übertragen, wie es die einfachen Beispiele der Kaffeetasse nach Boltzmann, des verlorene Schlüssel nach Salm oder das simple Bit vermuten lassen.

Siehe auch:
Paradoxe Logikkerne, Teil 2
Bit und Unterscheidung
Fünf Vorurteile über Entropie


Das ist ein Beitrag zum Thema Entropie. Siehe -> Übersichtsseite Entropie


 

Fünf Vorurteile über Entropie

Welche fünf Vorurteile teilen Sie?

  1. Entropie ist für Nerds
  2. Entropie ist unverständlich
  3. Entropie ist Wärmelehre
  4. Entropie ist Rauschen
  5. Entropie ist absolut


Korrekturen im Detail

1. Entropie ist die Grundlage unseres Alltags

Nerds interessieren sich gern für entlegene Themen. Da passt Entropie gut hinein, nicht wahr? Blutleere Nerds stellen sich damit als intellektuell überlegen dar. Dieses Spiel wollen Sie nicht mitmachen und Sie denken, dass es keinen wirklichen oder gar praktischen Grund gibt, sich mit Entropie zu beschäftigen. Diese Haltung ist sehr verbreitet und ziemlich falsch. Entropie ist kein nerdiges Thema, sondern bestimmt ganz grundlegend unser Leben, von der elementaren Physik bis in den praktischen Alltag hinein.

Beispiele (nach W. Salm1)

  • Eine heisse Kaffeetasse kühlt sich mit der Zeit ab
  • Wasser verdunstet in einem offenen Gefäss
  • Angestossene Pendel bleiben nach einiger Zeit stehen
  • Eisen rostet
  • Magnete werden nach einigen Jahren schwächer
  • Gelerntes wird vergessen
  • Gekämmte Haare zerzausen sich
  • Weisse Hemden werden fleckig
  • Felsen zerbröckeln
  • radioaktive Elemente zerfallen

Es gäbe also genug Grund, sich mit dem überall im Alltag anzutreffenden Phänomen Entropie zu beschäftigen. Doch die meisten Leuten machen einen Bogen um den Begriff. Weshalb? Das hat vor allem mit dem zweiten Vorurteil zu tun.


2. Entropie ist ein durchaus verständlicher und unverzichtbarer Grundbegriff

Entropie erscheint auf den ersten Blick ziemlich verwirrlich, doch schwierig zu verstehen ist Entropie nur wegen den hartnäckigen Vorurteilen 4 und 5. Diese beiden weit verbreiteten Vorurteile sind die Schwelle, die den Begriff Entropie unverständlich erscheinen lassen. Die Schwelle zu überwinden lohnt sich und hilft nicht nur, viele reale und praktische Phänomene zu verstehen, sondern wirf auch ein Licht auf die Grundlagen, welche unsere Welt zusammenhalten.


3. Entropie spielt überall in der Natur eine Rolle

Der Begriff Entropie zwar stammt aus der Wärmelehre. Doch davon sollten wir uns nicht täuschen lassen. In Wrklichkeit ist Entropie etwas, was es überall in der Physik, in der Chemie, der Biologie und auch in der Kunst, z.B. der Musik gibt. Es ist ein allgemeiner und abstrakter Begriff und er bezieht sich ganz direkt auf die Struktur von Dingen und auf die Information, die in ihnen steckt.

Historisch gesehen wurde der Begriff vor ca. 200 Jahren in der Wärmelehre eingeführt und mit der Möglchkeit, Wärme (Energie) fliessen zu lassen, verbunden. Er half, die Wirkweise von Maschinen (Otto-Motoren, Kühlschränke, Wärmepumpen, etc.) zu verstehen. So wird der Begriff heute noch  an den Gymnasien unterrichtet.

Doch die Wärmelehre zeigt nur einen Ausschnitt von dem, was Entropie ist. Seine allgemeine Natur wurde erst 1948 von C.E. Shannon2 beschrieben. Die allgemeine Form von Entropie, auch als Shannon- oder Informationsentropie bezeichnet, ist die eigentliche, d.h. die grundsätzliche Form. Die Wärmeentropie ist ein Spezialfall.

Durch ihre Anwendung auf Wärmeflüsse In der Thermodynamik bekam die Entropie als Wärmeentropie eine konkrete physikalische Dimension, nämlich J/K, d.h. Energie/Temperatur. Doch das ist der Spezialfall Wärmelehre, in der es um Energien (Wärme) und Temperatur geht. Wenn die Entropie ganz allgemein und abstrakt verstanden wird, ist sie dimensionslos, eine reine Zahl.

Dieser Zahl hat Shannon als Entdecker der abstrakten und allgemeinen Informationsentropie einen Namen gegeben, das «Bit». Mit dem dimensionslosen Bit konnte Shannon als Ingenieur der Telefongesellschaft Bell den Informationsfluss in den Telefondrähten berechnen. Seine Informationsentropie ist dimensionslos und gilt nicht nur in der Wärmelehre, sondern überall, wo Information und Flüsse eine Rolle spielen.


4. Entropie ist die Differenz zwischen Nichtwissen und Wissen

Viele von uns haben in der Schule gelernt, dass Entropie ein Mass für das Rauschen und das Chaos ist. Der zweite Hauptsatz der Physik sagt uns zudem, dass Entropie stets nur zunehmen kann. Doch das Identifizieren von Entropie mit Rauschen oder gar Chaos ist irreführend.

Dabei gibt es gute Gründe dafür: Wenn ich einen Würfelzucker in den Kaffee werfe, löst sich seine wohldefinierte Kristallstruktur auf, die Moleküle verteilen sich ungeordnet in der Flüssigkeit und der Zucker zeigt einen Übergang von geordnet zu ungeordnet. Dieser Zerfall von Ordnung lässt sich überall in der Natur beobachten. Physikalisch gesehen ist es die Entropie, die gemäss dem zweiten Hauptsatz den Zerfall von Ordnung antreibt. Und Zerfall und Chaos sind wohl kaum mit Shannons Informationsbegriff gleichzusetzen. So dachten auch viele Wissenschaftler und setzten deshalb Information mit Negentropie (Entropie mit negativem Vorzeichen) gleich. Das passt auf den ersten Blick nicht schlecht. Entropie ist in dieser Sichtweise Rauschen und Abwesenheit von Rauschen, d.h. Negentropie, wäre dann die Information. Eigentlich logisch, nicht wahr?

Nicht ganz, denn Information steckt sowohl im Würfelzucker wie in den aufgelösten, im Kaffee schwimmenden Zuckermolekülen. In den einzel schwimmenden Molekülen steckt in gewisser Weise sogar mehr Information, weil sie sich unabhängig voneinander bewegen. Diese Bewegung ist Information. Das Problem ist unsere konventionelle Vorstellung von Information. Unsere Vorstellung ist zu statisch. Ich schlage vor, dass wir uns davon lösen und Entropie als etwas ansehen, was einen Fluss bezeichnet, nämlich den Fluss zwischen Nichtwissen und Wissen. Diese Dynamik ist kennzeichnend für das Lernen, für das Aufnehmen von neuer Information.

Jede Sekunde geschieht im Kosmos unglaublich vieles, was man wissen könnte. Die Information in der Gesamtwelt kann nur zunehmen. Das sagt auch der zweite Hauptsatz, und was zunimmt ist die Entropie, nicht die Negentropie. Wäre es da nicht viel naheliegender, Information mit Entropie und nicht mit Negentropie parallel zu setzen? Mehr Entropie würde dann mehr Information bedeuten und nicht mehr Chaos.

Wo steckt nun die Information? Im Rauschen oder in der Abwesenheit von Rauschen? In der Entropie oder in der Negentropie?

Zwei Levels

Nun, das Dilemma lässt sich lösen. Der entscheidende Schritt ist, zu akzeptieren, dass Entropie die Spannung zwischen zwei Zuständen ist, dem Übersichts- und dem Detailzustand. Der Übersichts-Blick benötigt die Details nicht, sondern sieht nur die grossen Linien. C.F. Weizsäcker spricht vom Makrolevel. Die grossen Linien sind die Informationen, die uns interessieren. Details hingegen erscheinen uns als unwichtiges Rauschen. In den Details, d.h. im Mikrolevel, steckt aber mehr Information, meist eine ganze Menge mehr, man nehme nur die Bewegungen der Wassermoleküle in der Kaffeetasse (Mikrolevel), in deren chaotischem Gewusel mehr Information steckt als in der einen Angabe der Temperatur des Kaffees (Makrolevel). Beide Levels sind verbunden und ihre Informationen hängen auf komplexe Weise voneinander ab. Die Entropie ist nun die Differenz zwischen den beiden Informationsmengen. Diese ist auf dem Detaillevel (Mikrolevel) stets grösser, denn es gibt in den Details stets mehr zu wissen als in den grossen Linien und deshalb auch mehr Information

Weil die beiden Level sich aber auf das gleiche Objekt beziehen, kann ich als Beobachter die Details oder das grosse Ganze anschauen. Beides gehört zusammen. Der Informationsgewinn an Details bezeichnet den Übergang vom Makro- zum Mikrolevel, der Informationsgewinn an Übersicht die umgekehrte Richtung.

Wo liegt nun die wirkliche Information? Auf dem Detaillevel, wo ganz viele Details beschreibbar sind, oder auf dem Übersichtslevel, wo die Informationen so zusammengefasst und so vereinfacht sind, wie sie uns wirklich interesseren?

Die Antwort ist einfach: Information enthält beides, sowohl das Makro- wie das Mikrolevel. Die Entropie ist der Übergang zwischen den beiden Levels und je nachdem, was uns interessiert, können wir den Übergang der Blickrichtung in die eine oder in die andere Richtung vornehmen.

​Beispiel Kaffeetasse

Klassisch zeigt sich das in der Wärmelehre. Die Temperatur meines Kaffees kann gesehen werden als Mass für die durchschnittliche Bewegungsenergie der einzelnen Flüssigkeitsmoleküle in der Kaffeetasse. Die Information, die in den vielen Molekülen steckt ist der Mikrozustand, die Temperatur der Makrozustand. Entropie ist das Wissen, das im Makrozustand fehlt, im Mikrozustand aber vorhanden ist. Aber für mich als Kaffeetrinker ist nur das Wissens des Makrozustandes, der Temperatur des Kaffees, relevant. Dieses ist im Mikrozustand insofern nicht vorhanden, als es nicht an einem einzelnen Molekül hängt, sondern statistisch an der Gesamtheit aller Moleküle. Erst im Makrozustand wird das Wissen über die Temperatur erfahrbar.

Für uns zeigt nur der Makrozustand eine relevante Information. Doch auch im Rauschen steckt Information. Wie genau sich die Moleküle bewegen, ist ganz klar eine Menge an Information, doch diese Details spielen für mich keine Rolle, wenn ich Kaffee trinke, nur ihre durchschnittliche Geschwindigkeit macht die Temperatur des Kaffees aus, auf die es für mich ankommt.

Der informationsreichere und sich stetig ändernde Mikrozustand steht mit der einfachen Makroinformation der Temperatur aber in einer komplexen Beziehung. Auch der Makrozustand beeinflusst den Mikrozustand, nicht nur umgekehrt, denn die Moleküle müssen sich im statistischen Rahmen bewegen, den die Temperatur vorgibt. Beide Informationen hängen voneinander ab und sind gleichzeitig im Objekt objektiv vorhanden. Nur das Betrachtungslevel ist unterschiedlich. Die Differenz der Informationsmenge in der Beschreibung der beiden Levels bestimmt die Entropie und ist ein Mass für die Information.

Diese Verhältnisse sind spätestens seit Shannon2 und C.F. Weizsäcker bestens bekannt. In den Schulen wird aber meist noch gelehrt, dass Entropie ein Mass für Rauschen ist. Das ist falsch. Entropie ist immer als Delta zu verstehen, als einen Differenz (Abstand) zwischen der Information in der Übersicht (Makrozustand) und der Information in den Details (Mikrozustand).


5. Entropie ist ein relativer Wert

Aus der Tatsache, dass Entropie immer ein Abstand, ein Delta, d.h. mathematisch eine Differenz ist, folgt auch die Tatsache, dass Entropie kein absoluter, sondern stest ein relativer Wert ist.

Beispiel Kaffeetasse
Als Beispiel nehmen wir die Kaffeetasse. Wieviel Entropie steckt da drin? Wenn wir nur die Temperatur anschauen, dann entspricht der Mikrozustand der durchschnittlichen Bewegungsenergie der Moleküle. Doch die Kaffeetasse enthält noch mehr Information: Wie stark ist der Kaffee? Wie stark gesüsst? Wie stark ist die Säure? Welche Geschmacksnoten enthält er?

Beispiel Schulhaus
Salm1 bringt das Beispiel einer Haarspange, die eine Schülerin in der Schule sucht. Wenn ich weiss, in welchem Schulzimmer die Spange ist, habe ich sie dann schon gefunden? Der Mikrozustand benennt in diesem Moment nur das Zimmer. Wo im Zimmer liegt die Spange? Vielleicht in einem Gestell? In welchem? In welcher Höhe? In welcher Schublade, welchem Karton? Der Mikrozustand lässt sich variabel präzis einstellen.

Weil die Informationsentropie stets eine Differenz ist, ist die Entropie, d.h. die Spanne zwischen Übersicht und Details stets erweiterbar auf noch mehr Details.

Die Entropie ist ein relativer Wert. Wenn wir sie absolut angeben, setzen wir – ohne das explizit zu deklarien – ein tiefstes Level (Klassenzimmer, Regal oder Schublade) fest. Das ist legal,  solange wir uns bewusst sind, dass der scheinbar absolute Wert nur den Abstand zum angenommenen Mikrolevel darstellt.

Statik und Dynamik 

Energie und Entropie sind zwei komplementäre Grössen, welche die ganze Naturbeschreibung (Physik, Chemie, Biologie) durchziehen. Die beiden Hauptsätze der Physik enthalten je einen der beiden allgemeinen Grössen E (Energie) und S (Entropie):

  1. Satz:  E = 0
  2. Satz:  ∆S ≥ 0

Die Energie bleibt im Lauf der Zeit (im geschlossenen System) konstant, die Entropie kann nur zunehmen. Mit anderen Worten: Energie ist ein statischer Wert und zeigt, was sich nicht ändert, während Entropie essentiell dynamisch ist und Flüsse anzeigt, z.B. in den Wärmemaschinen, in Shannons Strom in Telefondrähten und immer dann, wenn unsere Gedanken fliessen und wir lernen und denken.

Entropie und Zeit

Entropie ist durch den zweiten Hauptsatz (∆S ≥ 0) essentiell mit dem Phänomen Zeit verbunden. Während die Energie im geschlossenen System konstant bleibt (Noethers Theorem), ändert sich in der Zeit die Entropie und nimmt im geschlossenen System zu. Entropie kennt also die Zeit, nicht nur die Wärmeentropie im Speziellen, sondern auch die viel allgemeinere Informationsentropie.


Fazit

  • Entropie ist ein Schlüsselbegriff. Er verbindet Physik und Information.
  • Entropie stammt aus der Wärmelehre, bezieht sich aber auf Information im Allgemeinen.
  • Die Wärmeentropie ist der Spezialfall, die Informationsentropie ist der allgemeine Begriff.
  • Alles, was physikalisch, chemisch und in der Informationsverarbeitung, ob technisch oder biologisch, geschieht, hat mit Entropie zu tun. Insbesondere alles, was mit Informationsflüssen und -strukturen zu tun hat. Mit anderen Worten: Alles, was uns wirklich interessiert.
  • Entropie ist immer relativ und bezieht sich auf den Abstand zwischen dem Makro- und dem Mikrolevel.
  • Das Makrolevel enthält weniger Information als das Mikrolevel
  • Das Makrolevel enthält die Information, die interessiert.
  • Beides ist nicht absolut: Das Mikrolevel kann immer noch detaillierter geschildert werden. Das Makrolevel wird von aussen definiert: Was interessiert? Die Temperatur des Kaffees? Die Konzentration der Zuckermoleküle? Die Säure? Der Koffeingehalt …
  • Erst die Definition der beiden Zustände erlaubt es, die Entropie scheinbar absolut anzugeben. Doch was für die Entropie zählt, ist der relative Wert, das heisst das Delta zwischen den beiden Zuständen. Dieses Delta, die Entropie, bestimmt den Fluss.
  • Der Fluss geschieht in der Zeit.

1 Salm, W: Entropie und Information – naturwissenschaftliche Schlüsselbegriffe, Aulis Verlag Deubner, Köln, 1997

2 Shannon, C.E. und Weaver W: The Mathematical Theory of Information, Illinois Press, Chicago, 1949


Das ist ein Beitrag zum Thema Entropie. Siehe -> Übersichtsseite Entropie


 

Wie real ist das Wahrscheinliche?

Was nicht im Korpus ist, ist für die KI unsichtbar

Korpusbasierte KI-Systeme sind auf Erfolgskurs. Sie sind ‹disruptiv›, d.h. sie verändern unsere Gesellschaft nachhaltig und in sehr kurzer Zeit. Genügend Gründe also, sich zu vergegenwärtigen, wie diese Systeme effektiv funktionieren.

In den Vorbeiträgen habe ich  dargelegt, dass diese Systeme aus zwei Teilen bestehen, nämlich einem Daten-Korpus und einem neuronalen Netz. Selbstverständlich kann das Netz nichts erkennen, was nicht bereits im Korpus steckt. Die Blindheit des Korpus setzt sich automatisch im neuronalen Netz fort und die KI kann letztlich nur hervorbringen, was bereits in den Daten des Korpus vorgegeben ist. Ebenso verhält es sich mit Fehleingaben im Korpus. Auch diese finden sich in den Resultaten der KI und mindern insbesondere ihre Treffschärfe.

Wenn man sich die Wirkweise der KI vergegenwärtigt,  ist dieser Sachverhalt banal, denn der Lernkorpus ist die Grundlage für diese Art künstliche Intelligenz. Nur was im Korpus ist, kann im Resultat erscheinen und Fehler und Unschärfen des Korpus vermindern automatisch die Aussagekraft.

Weniger banal ist ein anderer Aspekt, der mit der künstlichen Intelligenz der neuronalen Netze ebenfalls essenziell verbunden ist. Es handelt sich um die Rolle der Wahrscheinlichkeit. Neuronale Netze funktionieren über Wahrscheinlichkeiten. Was genau heisst das und wie wirkt sich das in der Praxis aus?

Das neuronale Netz bewertet nach Wahrscheinlichkeit

Ausgangslage

Schauen wir wieder unsere Suchmaschine vom Vorbeitrag an: Ein Kunde unserer Suchmaschine gibt einen Suchstring ein. Andere Kunden haben bereits vorher den gleichen Suchstring eingegeben. Wir schlagen deshalb dem Kunden diejenigen Websites vor, die bereits die früheren Kunden ausgewählt haben. Weil das unübersichtlich viele sein können, wollen wir dem Kunden diejenigen zuoberst zeigen, die für ihn am interessantesten sind (siehe Vorbeitrag). Dazu bewerten wir alle Kunden gemäss ihren bisherigen Suchanfragen. Wie wir das im Detail machen, ist natürlich unser Geschäftsgeheimnis, schliesslich wollen wir gegenüber der Konkurrenz einen Vorsprung herausholen. Wie immer aber wir das auch tun – und wie immer es die Konkurrenz auch tut – am Schluss erhalten wir eine Gewichtung der Vorschläge der bisherigen Nutzer. Anhand dieser Gewichtung wählen wir die Vorschläge aus, die wir dem Fragesteller präsentieren, und die Reihenfolge, in der wir sie ihm zeigen. Und dabei sind die Wahrscheinlichkeiten entscheidend.

Beispiel

Nehmen wir an, der Anfragesteller A stellt  eine Suchanfrage an unsere Suchmaschine und die beiden Kunden B und C haben bereits die gleiche Suchanfrage wie A gestellt  und ihre Wahl, d.h. die Adressen der von ihnen gewählten Websites, in unserem gut gefüllten Korpus hinterlassen. Welche Auswahl sollen wir nun A bevorzugt präsentieren, die von B oder die von C?

Jetzt schauen wir uns die Bewertungen der drei Kunden an: Wie sehr stimmt das Profil von B und C mit dem Kunden A überein? Nehmen wir an, wir kommen auf folgende Übereinstimmungen:

Kunde B:  80%
Kunde C: 30%

Selbstverständlich nehmen wir an, dass Kunde B mit A besser übereinstimmt als C, und A deshalb mit den Antworten von B besser bedient ist.

Ist das aber sicher so?

Die Frage ist berechtigt, denn schliesslich besteht zu keinem der beiden anderen User eine vollständige Übereinstimmung. Vielleicht betreffen gerade die 30%, mit denen A und C übereinstimmen, das Gebiet der aktuellen Suchanfrage von A. Da wäre es schade, die Antwort von B bevorzugt zu platzieren, insbesondere wenn die 80% Übereinstimmung zu B ganz andere Gebiete betrifft, die mit der aktuellen Suchanfrage nichts zu tun haben. Zugegeben, die skizzierte Abweichung von der Wahrscheinlichkeit ist im konkreten Fall unwahrscheinlich, aber sie ist nicht unmöglich – das ist die eigentliche Crux mit den Wahrscheinlichkeiten.

Nun, wir entscheiden uns in diesem Fall vernünftigerweise für B, und wir können sicher sein, dass die Wahrscheinlichkeit auf unserer Seite ist. Für unseren Geschäftserfolg können wir uns getrost auf die Wahrscheinlichkeit verlassen. Warum?

Das hängt mit dem Prinzip der ‹grossen Zahl‹ zusammen. Für den einzelnen Fall kann – wie oben geschildert – die Antwort von C wirklich die bessere sein. In den meisten Fällen aber wird die Antwort von B unserem Kunden besser gefallen und wir tun gut daran, ihm diese Antwort zu geben. Das ist das Prinzip der ‹grossen Zahl›. Es liegt dem Phänomen Wahrscheinlichkeit essenziell zugrunde:

Im Einzelfall kann etwas geschehen, was unwahrscheinlich ist, für viele Fälle können wir uns aber darauf verlassen, dass meistens das Wahrscheinliche geschieht.

Fazit für unsere Suchmaschine
  1. Wenn wir uns also dafür interessieren, in den meisten Fällen recht zu bekommen, halten wir uns an die Wahrscheinlichkeit.
  2. Wir nehmen dabei in Kauf, dass wir in seltenen Fällen daneben greifen.
Fazit für die korpusbasierte KI generell

Was für unsere Suchmaschine gilt, gilt ganz generell für jede korpusbasierte KI, da eine solche immer mit Wahrscheinlichkeiten funktioniert. Somit lautet das Fazit für die korpusbasierte KI:

  1. Wenn wir uns dafür interessieren, in den meisten Fällen recht zu bekommen, halten wir uns an die Wahrscheinlichkeit.
  2. Wir nehmen dabei in Kauf, dass wir in seltenen Fällen daneben greifen.

Wir müssen bei der korpusbasierten KI mit einer inhärenten Schwäche rechnen, einer Art Achillesferse einer sonst hochpotenten Technologie. Diese Ferse sollten wir sorgfältig weiter beobachten:

  1. Vorkommen:
    Wann tritt der Fehler eher auf, wann kann man ihn eher vernachlässigen? Dies hängt mit der Grösse des Korpus und seiner Qualität, aber auch mit der Art der Fragestellung zusammen.
  2. Konsequenzen:
    Was hat es für Folgen, wenn seltene Fälle vernachlässigt werden?
    Kann das permanente Mitteln und Beachten nur der wahrscheinlichsten Lösungen als intelligent bezeichnet werden?
  3. Zusammenhänge:
    Für die grundlegenden Zusammenhänge interessant ist der Bezug zum Begriff der Entropie: Der 2. Hauptsatz der Wärmelehre besagt, dass in einem geschlossenen System immer das Wahrscheinlichere geschieht und die Wärmelehre misst diese Wahrscheinlichkeit anhand der Variablen S, welche sie als Entropie bezeichnet.
    Das Wahrscheinliche geschieht, in der Wärmelehre und in unserer Suchmaschine – wie aber wählt eine natürliche Intelligenz?

Dies ist ein Beitrag zum Thema künstliche Intelligenz. Im nächsten Beitrag geht es um Spiele und Intelligenz, konkret um den Unterschied zwischen Schach und Jassen.