Was nicht im Korpus ist, ist für die KI unsichtbar
Korpusbasierte KI-Systeme sind auf Erfolgskurs. Sie sind ‹disruptiv›, d.h. sie verändern unsere Gesellschaft nachhaltig und in sehr kurzer Zeit. Genügend Gründe also, sich zu vergegenwärtigen, wie diese Systeme effektiv funktionieren.
In den Vorbeiträgen habe ich dargelegt, dass diese Systeme aus zwei Teilen bestehen, nämlich einem Daten-Korpus und einem neuronalen Netz. Selbstverständlich kann das Netz nichts erkennen, was nicht bereits im Korpus steckt. Die Blindheit des Korpus setzt sich automatisch im neuronalen Netz fort und die KI kann letztlich nur hervorbringen, was bereits in den Daten des Korpus vorgegeben ist. Ebenso verhält es sich mit Fehleingaben im Korpus. Auch diese finden sich in den Resultaten der KI und mindern insbesondere ihre Treffschärfe.
Wenn man sich die Wirkweise der KI vergegenwärtigt, ist dieser Sachverhalt banal, denn der Lernkorpus ist die Grundlage für diese Art künstliche Intelligenz. Nur was im Korpus ist, kann im Resultat erscheinen und Fehler und Unschärfen des Korpus vermindern automatisch die Aussagekraft.
Weniger banal ist ein anderer Aspekt, der mit der künstlichen Intelligenz der neuronalen Netze ebenfalls essenziell verbunden ist. Es handelt sich um die Rolle der Wahrscheinlichkeit. Neuronale Netze funktionieren über Wahrscheinlichkeiten. Was genau heisst das und wie wirkt sich das in der Praxis aus?
Das neuronale Netz bewertet nach Wahrscheinlichkeit
Ausgangslage
Schauen wir wieder unsere Suchmaschine vom Vorbeitrag an: Ein Kunde unserer Suchmaschine gibt einen Suchstring ein. Andere Kunden haben bereits vorher den gleichen Suchstring eingegeben. Wir schlagen deshalb dem Kunden diejenigen Websites vor, die bereits die früheren Kunden ausgewählt haben. Weil das unübersichtlich viele sein können, wollen wir dem Kunden diejenigen zuoberst zeigen, die für ihn am interessantesten sind (siehe Vorbeitrag). Dazu bewerten wir alle Kunden gemäss ihren bisherigen Suchanfragen. Wie wir das im Detail machen, ist natürlich unser Geschäftsgeheimnis, schliesslich wollen wir gegenüber der Konkurrenz einen Vorsprung herausholen. Wie immer aber wir das auch tun – und wie immer es die Konkurrenz auch tut – am Schluss erhalten wir eine Gewichtung der Vorschläge der bisherigen Nutzer. Anhand dieser Gewichtung wählen wir die Vorschläge aus, die wir dem Fragesteller präsentieren, und die Reihenfolge, in der wir sie ihm zeigen. Und dabei sind die Wahrscheinlichkeiten entscheidend.
Beispiel
Nehmen wir an, der Anfragesteller A stellt eine Suchanfrage an unsere Suchmaschine und die beiden Kunden B und C haben bereits die gleiche Suchanfrage wie A gestellt und ihre Wahl, d.h. die Adressen der von ihnen gewählten Websites, in unserem gut gefüllten Korpus hinterlassen. Welche Auswahl sollen wir nun A bevorzugt präsentieren, die von B oder die von C?
Jetzt schauen wir uns die Bewertungen der drei Kunden an: Wie sehr stimmt das Profil von B und C mit dem Kunden A überein? Nehmen wir an, wir kommen auf folgende Übereinstimmungen:
Kunde B: 80%
Kunde C: 30%
Selbstverständlich nehmen wir an, dass Kunde B mit A besser übereinstimmt als C, und A deshalb mit den Antworten von B besser bedient ist.
Ist das aber sicher so?
Die Frage ist berechtigt, denn schliesslich besteht zu keinem der beiden anderen User eine vollständige Übereinstimmung. Vielleicht betreffen gerade die 30%, mit denen A und C übereinstimmen, das Gebiet der aktuellen Suchanfrage von A. Da wäre es schade, die Antwort von B bevorzugt zu platzieren, insbesondere wenn die 80% Übereinstimmung zu B ganz andere Gebiete betrifft, die mit der aktuellen Suchanfrage nichts zu tun haben. Zugegeben, die skizzierte Abweichung von der Wahrscheinlichkeit ist im konkreten Fall unwahrscheinlich, aber sie ist nicht unmöglich – das ist die eigentliche Crux mit den Wahrscheinlichkeiten.
Nun, wir entscheiden uns in diesem Fall vernünftigerweise für B, und wir können sicher sein, dass die Wahrscheinlichkeit auf unserer Seite ist. Für unseren Geschäftserfolg können wir uns getrost auf die Wahrscheinlichkeit verlassen. Warum?
Das hängt mit dem Prinzip der ‹grossen Zahl‹ zusammen. Für den einzelnen Fall kann – wie oben geschildert – die Antwort von C wirklich die bessere sein. In den meisten Fällen aber wird die Antwort von B unserem Kunden besser gefallen und wir tun gut daran, ihm diese Antwort zu geben. Das ist das Prinzip der ‹grossen Zahl›. Es liegt dem Phänomen Wahrscheinlichkeit essenziell zugrunde:
Im Einzelfall kann etwas geschehen, was unwahrscheinlich ist, für viele Fälle können wir uns aber darauf verlassen, dass meistens das Wahrscheinliche geschieht.
Fazit für unsere Suchmaschine
- Wenn wir uns also dafür interessieren, in den meisten Fällen recht zu bekommen, halten wir uns an die Wahrscheinlichkeit.
- Wir nehmen dabei in Kauf, dass wir in seltenen Fällen daneben greifen.
Fazit für die korpusbasierte KI generell
Was für unsere Suchmaschine gilt, gilt ganz generell für jede korpusbasierte KI, da eine solche immer mit Wahrscheinlichkeiten funktioniert. Somit lautet das Fazit für die korpusbasierte KI:
- Wenn wir uns dafür interessieren, in den meisten Fällen recht zu bekommen, halten wir uns an die Wahrscheinlichkeit.
- Wir nehmen dabei in Kauf, dass wir in seltenen Fällen daneben greifen.
Wir müssen bei der korpusbasierten KI mit einer inhärenten Schwäche rechnen, einer Art Achillesferse einer sonst hochpotenten Technologie. Diese Ferse sollten wir sorgfältig weiter beobachten:
- Vorkommen:
Wann tritt der Fehler eher auf, wann kann man ihn eher vernachlässigen? Dies hängt mit der Grösse des Korpus und seiner Qualität, aber auch mit der Art der Fragestellung zusammen. - Konsequenzen:
Was hat es für Folgen, wenn seltene Fälle vernachlässigt werden?
Kann das permanente Mitteln und Beachten nur der wahrscheinlichsten Lösungen als intelligent bezeichnet werden? - Zusammenhänge:
Für die grundlegenden Zusammenhänge interessant ist der Bezug zum Begriff der Entropie: Der 2. Hauptsatz der Wärmelehre besagt, dass in einem geschlossenen System immer das Wahrscheinlichere geschieht und die Wärmelehre misst diese Wahrscheinlichkeit anhand der Variablen S, welche sie als Entropie bezeichnet.
Das Wahrscheinliche geschieht, in der Wärmelehre und in unserer Suchmaschine – wie aber wählt eine natürliche Intelligenz?
Dies ist ein Beitrag zum Thema künstliche Intelligenz. Im nächsten Beitrag geht es um Spiele und Intelligenz, konkret um den Unterschied zwischen Schach und Jassen.