Schlagwort-Archive: NMR

Die drei Neuerungen der regelbasierten KI

Haben die neuronalen Netze die regelbasierten Systeme abgehängt?

Es ist nicht zu übersehen: Die korpusbasierte KI hat die regelbasierte KI um Längen überholt. Neuronale Netze machen das Rennen, wohin man schaut. Schläft die Konkurrenz? Oder sind regelbasierte Systeme schlicht nicht in der Lage, gleichwertige Ergebnisse wie neuronale Netze zu erzielen?

Meine Antwort ist, dass die beiden Methoden aus Prinzip für sehr unterschiedliche Aufgaben prädisponiert sind. Ein Blick auf die jeweiligen Wirkweisen macht klar, wofür die beiden Methoden sinnvollerweise eingesetzt werden. Je nach Fragestellung ist die eine oder die andere im Vorteil.

Trotzdem bleibt das Bild: Die regelbasierte Variante scheint auf der Verliererspur. Woher kommt das?

In welcher Sackgasse steckt die regelbasierte KI?

Meines Erachtens hat das Hintertreffen der regelbasierten KI damit zu tun, dass sie ihre Altlasten nicht loswerden will. Dabei wäre es so einfach. Es geht darum:

  1. Semantik als eigenständiges Wissensgebiet zu erkennen
  2. Komplexe Begriffsarchitekturen zu verwenden
  3. Eine offene und flexible Logik (NMR) einzubeziehen.

Wir tun dies seit über 20 Jahren mit Erfolg. Andernorts allerdings ist
die Notwendigkeit dieser drei Neuerungen und des damit verbundenen Paradigmenwechsels noch nicht angekommen.

Was bedeuten die drei Punkte nun im Detail?

Punkt 1: Semantik als eigenständiges Wissensgebiet erkennen

Üblicherweise ordnet man die Semantik der Linguistik zu. Dem wäre im Prinzip nichts entgegen zu halten, doch in der Linguistik lauert für die Semantik eine kaum bemerkte Falle: Linguistik beschäftigt sich mit Wörtern und Sätzen. Der Fehler entsteht dadurch, dass man die Bedeutung, d.h. die Semantik, durch den Filter der Sprache sieht und glaubt, ihre Elemente auf die gleiche Weise anordnen zu müssen, wie die Sprache das mit den Wörtern macht. Doch die Sprache unterliegt einer entscheidenden Einschränkung, sie ist linear, d.h. sequenziell: Ein Buchstabe kommt nach dem anderen, ein Wort nach dem anderen.  Es ist nicht möglich, Wörter parallel nebeneinander zu setzen. Im Denken können wir das aber. Und wenn wir die Semantik von etwas untersuchen, geht es darum, wie wir denken und nicht, wie wir sprechen.

Wir müssen also Formalismen finden für die Begriffe, wie sie im Denken vorkommen. Die Beschränkung durch die lineare Anordnung der Elemente und die sich daraus ergebende Notwendigkeit, behelfsweise und in jeder Sprache anders mit grammatikalischen Kunstgriffen Klammerungen und komplexe Beziehungsstrukturen nachzubilden, diese Beschränkung gilt im Denken nicht und wir erhalten dadurch auf der semantischen Seite ganz andere Strukturen als auf der sprachlichen Seite.

Wort ≠ Begriff

Was sicher nicht funktioniert, ist eine simple «semantische Annotation» von Wörtern. Ein Wort kann viele, sehr unterschiedliche Bedeutungen haben. Eine Bedeutung (= ein Begriff) kann durch unterschiedliche Wörter ausgedrückt werden. Wenn man Texte analysieren will, darf man nicht die einzelnen Wörter, sondern muss immer den Gesamtkontext ansehen. Nehmen wir das Wort «Kopf». Wir sprechen z.B. vom Kopf eines Briefes oder vom Kopf eines Unternehmens. Wir können nun den Kontext in unseren Begriff hineinnehmen, indem wir den Begriff <Kopf< mit anderen Begriffen verbinden. So gibt es einen <Körperteil<Kopf< und eine <Funktion<Kopf<.  Der Begriff links (<Körperteil<) sagt dann aus, von welchem Typ der Begriff rechts (<Kopf<) ist. Wir typisieren also. Wir suchen den semantischen Typ eines Begriffs und setzen ihn vor den Unterbegriff.

Konsequent komposite Datenelemente

Die Verwendung typisierter Begriffe ist nichts Neues. Wir gehen aber weiter und bilden ausgedehnte strukturierte Graphen, diese komplexen Graphen bilden dann die Basis unserer Arbeit. Das ist etwas ganz anderes als die Arbeit mit Wörtern. Die Begriffsmoleküle, die wir verwenden, sind solche Graphen, die eine ganz spezielle Struktur aufweisen, sodass sie sowohl für Menschen wie für Maschinen leicht und schnell lesbar sind. Die komposite Darstellung hat viele Vorteile, einer ist z.B. dass der kombinatorischen Explosion ganz einfach begegnet wird und so die Zahl der atomaren Begriffe und Regeln drastisch gekürzt werden kann. Durch die Typisierung und die Attribute können ähnliche Begriffe beliebig geschärft werden, wir können mit Molekülen dadurch sehr präzis «sprechen». Präzision und Transparenz der Repräsentation haben darüber hinaus viel damit zu tun, dass die spezielle Struktur der Graphen (Moleküle) direkt von der multifokalen Begriffsarchitektur abgeleitet ist (siehe im folgenden Punkt 2).

Punkt 2: Komplexe Begriffsarchitekturen verwenden

Begriffe sind in den Graphen (Begriffsmoleküle) über Relationen verbunden. Die oben genannte Typisierung ist eine solche Relation: Wenn der <Kopf< als ein <Körperteil< gesehen wird, dann ist er vom Typ <Körperteil< und es besteht eine ganz bestimmte Relation zwischen <Kopf< und <Körperteil<, nämlich eine sogenannte hierarchische oderIS-A‹-Relation – letzteres darum, weil man bei hierarchischen Relationen immer ‹IST-EIN› sagen kann, also in unserem Fall: der <Kopf< ist ein <Körperteil<.

Die Typisierung ist eine der beiden grundlegenden Relationen in der Semantik. Wir ordnen eine Anzahl Begriffe einem übergeordneten Begriff, also ihrem Typ zu. Dieser Typ ist natürlich genauso ein Begriff und er kann deshalb selber wieder typisiert werden. Dadurch entstehen hierarchische Ketten von ‹IS-A›-Relationen, mit zunehmender Spezifizierung, z.B. <Gegenstand<Möbel<Tisch<Küchentisch<. Wenn wir alle Ketten der untergeordneten Begriffe, die von einem Typ ausgehen, zusammenbinden, erhalten wir einen Baum. Dieser Baum ist der einfachste der vier Architekturtypen für die Anordnung von Begriffen.

Von dieser Baumstruktur gehen wir aus, müssen aber erkennen, dass eine blosse Baumarchitektur entscheidende Nachteile hat, die es verunmöglichen, damit wirklich präzis greifende Semantiken zu bauen. Wer sich für die verbesserten und komplexeren Architekturtypen und ihre Vor- und Nachteile interessiert, findet eine ausführliche Darstellung der vier Architekturtypen auf der Website von meditext.ch.

Bei den Begriffsmolekülen haben wir den gesamten Formalismus, d.h. die innere Struktur der Regeln und Moleküle selbst auf die komplexen Architekturen ausgerichtet. Das bietet viele Vorteile, denn die Begriffsmoleküle weisen jetzt in sich genau die gleiche Struktur auf wie die Achsen der multifokalen Begriffsarchitektur. Man kann die komplexen Faltungen der multifokalen Architektur als Gelände auffassen, mit den Dimensionen oder semantischen Freiheitsgraden als komplex verschachtelte Achsen. Die Begriffsmoleküle nun folgen diesen Achsen in ihrer eigenen inneren Struktur. Das macht das Rechnen mit den Molekülen so einfach. Mit simplen Hierarchiebäumen oder multidimensionalen Systemen würde das nicht funktionieren. Und ohne konsequent komposite Datenelemente, deren innere Struktur auf fast selbstverständliche Weise den Verzweigungen der komplexen Architektur folgt, auch nicht.

Punkt 3: Eine offene und flexible Logik (NMR) einbeziehen

Dieser Punkt ist für theoretisch vorbelastete Wissenschaftler möglicherweise der härteste. Denn die klassische Logik erscheint den meisten unverzichtbar und viele kluge Köpfe sind stolz auf ihre Kenntnisse darin. Klassische Logik ist in der Tat unverzichtbar – nur muss sie am richtigen Ort eingesetzt werden. Meine Erfahrung zeigt, dass wir im Bereich des NLP (Natural Language Processing) eine andere Logik brauchen, nämlich eine, die nicht monoton ist. Eine solche nichtmonotone Logik (NMR) erlaubt es, für das gleiche Resultat mit viel weniger Regeln in der Wissensbasis auszukommen. Die Wartung wird dadurch zusätzlich vereinfacht. Auch ist es möglich, das System ständig weiter zu entwickeln, weil es logisch offen bleibt. Ein logisch offenes System mag einen Mathematiker beunruhigen, die Erfahrung aber zeigt, dass ein NMR-System für die regelbasierte Erfassung des Sinns von frei formuliertem Text wesentlich besser funktioniert als ein monotones.

Fazit

Heute scheinen die regelbasierten Systeme im Vergleich zu den korpusbasierten im Hintertreffen zu sein. Dieser Eindruck täuscht aber und rührt daher, dass die meisten regelbasierten Systeme den Sprung in ein modernes System noch nicht vollzogen haben. Dadurch sind sie entweder:

  • nur für Aufgaben in kleinem und wohldefiniertem Fachgebiet anwendbar oder
  • sehr rigid und deshalb kaum einsetzbar oder
  • sie benötigen einen unrealistischen Ressourceneinsatz und werden unwartbar.

Wenn wir aber konsequent komposite Datenelemente und höhergradige Begriffsarchitekturen verwenden und bewusst darauf verzichten, monoton zu schliessen, kommen wir – für die entsprechenden Aufgaben – mit regelbasierten Systemen weiter als mit korpusbasierten.

Regelbasierte und korpusbasierte Systeme sind sehr unterschiedlich und je nach Aufgabe ist das eine oder das andere im Vorteil. Darauf werde ich in einem späteren Beitrag eingehen.


Dies ist ein Beitrag zum Thema künstliche Intelligenz (KI). Ein Folgebeitrag beschäftigt sich mit der aktuellen Verbreitung der beiden KI-Methoden.

Präzisierung der Herausforderungen an die regelbasierte KI

Die regelbasierte KI ist im Hintertreffen

Die Unterscheidung zwischen regelbasierter und korpusbasierter KI ist in mehrerer Hinsicht sinnvoll, denn die beiden Methoden funktionieren völlig unterschiedlich. Das bedeutet nicht nur, dass die Herausforderungen ganz andere sind, sondern in der Folge auch die Entwicklungsverläufe zeitlich nicht parallel erfolgen. Wenn heute von KI gesprochen wird, ist eigentlich nur die korpusbasierte gemeint, die regelbasierte scheint deutlich abgehängt zu sein.

Meines Erachtens hat das aber nur damit zu tun, dass die regelbasierte KI in eine Sackgasse gekommen ist, aus der sie erst herausfindet, wenn sie ihre spezifischen Herausforderungen richtig erkennt.  Deshalb sollen hier die Herausforderungen genauer beschrieben werden.

Übersicht über die Herausforderungen

Im Vorbeitrag habe ich vier Herausforderungen an die regelbasierte KI genannt. Die ersten beiden lassen sich nicht grundsätzlich verbessern. Es braucht Experten für die Regelerstellung und die müssen sowohl Experten für abstrakte Logik wie auch Experten des jeweiligen Fachgebietes sein. Daran lässt sich nicht viel ändern. Auch die zweite Herausforderung bleibt bestehen, das Finden solcher Experten bleibt ein Problem.

Besser steht es um die Herausforderungen drei und vier, nämlich um die grosse Zahl der nötigen Regeln und ihre Komplexität. Obwohl gerade diese beiden Herausforderungen scheinbar unveränderliche Hürden von beträchtlicher Höhe darstellen, können sie mit den nötigen Erkenntnissen einiges an Schrecken verlieren. Allerdings müssen beide Herausforderungen konsequent angegangen werden, und das heisst, dass wir einige liebgewordenen Gewohnheiten und Denkmuster über Bord werfen müssen. Das sehen wir uns jetzt genauer an.

Für die Regeln braucht es einen Raum und einen Kalkulus

Regelbasierte KI besteht aus zwei Dingen:

  • den Regeln, die eine Domain (Fachgebiet) in einem bestimmten Format beschreiben und
  • einem Algorithmus, der bestimmt, wann welche Regeln ausgeführt werden.

Um die Regeln zu bauen, brauchen wir einen Raum, der festlegt, aus welchen Elementen die Regeln bestehen können und dadurch auch, was innerhalb des Systems überhaupt ausgesagt werden kann. Ein solcher Raum besteht nicht von selber, sondern muss bewusst gestaltet werden. Und zweitens brauchen wir ein Kalkulus, d.h. einen Algorithmus, der festlegt, wie die so gebauten Regeln angewendet werden. Selbstverständlich können sowohl der Raum als auch der Kalkulus ganz unterschiedlich angelegt sein, und diese Unterschiede «machen den Unterschied», d.h. sie erlauben eine entscheidende Verbesserung der regelbasierten KI, allerdings um den Preis, dass liebgewordene Gewohnheiten über Bord geworfen werden müssen.

Drei Neuerungen

In den 90er Jahren haben wir in unserem Projekt Semfinder deshalb in Beides investiert, sowohl in die grundlegende Gestaltung des Begriffsraums wie auch in den Kalkulus. Wir haben unser regelbasiertes System auf der Grundlage folgender drei Neuerungen erstellt:

  • Datenelemente: Konsequent komposite Datenelemente (Begriffsmoleküle).
  • Raum: Multidimensional-multifokale Architektur.
  • Kalkulus: Non Monotonic Reasoning (NMR).

Diese drei Neuerungen wirken zusammen und erlauben es , mit weniger Datenelementen und Regeln mehr Situationen präziser abzufangen. Durch die multifokale Architektur kann besser, d.h. situationsgerechter und detaillierter modelliert werden. Da gleichzeitig die Zahl der Elemente und Regeln abnimmt, verbessert sich die Übersicht und Wartbarkeit. Durch die drei Neuerungen gelingt es, die Grenzen zu sprengen, die regelbasierten Systemen bisher bezüglich Umfang, Präzision und Wartbarkeit gesetzt waren.


Dies ist ein Beitrag zum Thema künstliche Intelligenz (KI). Im Folgebeitrag werden wir untersuchen, wie die drei oben genannten Neuerungen wirken.

Logodynamik

Wozu dient Logik?

Geht es bei Logik ums Denken? Das dachte ich jedenfalls früher. Logik sei quasi die «Lehre vom Denken» oder gar die «Lehre vom richtigen Denken». Beim näheren Blick aber zeigt sich, dass es bei dem, was als Logik bezeichnet und studiert wird, nicht ums Denken, sondern ums Beweisen geht. Die klassische Logik ist in der Tat eine Wissenschaft des Beweisens.

Denken ist aber weit mehr als Beweisen. Man muss die Beweise erst finden. Dann muss man die Beweise im Kontext bewerten. Der Kontext kann ändern. Was mache ich mit Widersprüchen? Meines Erachtens sollte Logik untersuchen, wie wir uns ganz allgemein den Fragen des richtigen Denkens stellen und mehr sein als nur eine Wissenschaft des Beweisens. Wie aber gelangen wir zu einer solchen erweiterten Logik?

Der entscheidende Schritt war für mich die Erkenntnis, dass es eine statische und eine dynamische Logik gibt. Erst wenn wir wagen, den sicheren Garten der statischen Logik zu verlassen, können wir anfangen, das wirkliche Denken zu untersuchen.

Klassische Logik = Logostatik

Die klassische Logik prägte das abendländische Geistesleben über zwei Jahrtausende lang – angefangen bei den Syllogismen des Aristoteles über die Scholastik des Mittelalters mit den Lehren des Thomas von Aquin bis hin zur heute noch aktuellen Prädikatenlogik ersten Grades (FOL = First Order Logic) der Mathematiker. Diese Logiken sind genuin statisch. Bei ihnen hat jede Aussage einen allgemein gültigen, absoluten Wahrheitswert; die Aussage ist entweder wahr oder falsch – und das darf sich nicht ändern. Mit anderen Worten: Das logische Gebäude ist statisch. Die Mathematiker nennen eine solche Logik monoton.

Logodynamik

Während Widersprüche in einem klassischen logischen System nicht geduldet werden können, bilden sie in einem dynamischen System entscheidende Elemente im Netzwerk der Aussagen. Genauso wie sie es in unserem Denken tun. Widersprüche sind nämlich nichts anderes als Ausgangspunkte für unser Denken. Schliesslich zwingen uns Widersprüche, z.B. Beobachtungen die nicht zueinander passen, die Dinge genauer anzusehen. Wenn Aussagen einander widersprechen, wollen wir darüber nachdenken, was gilt. Widersprüche, in klassischer Logik verboten, sind in dynamischer Logik der eigentliche Ausgangspunkt des Denkens. Genauso wie in der Physik eine elektrische Spannung z.B. die Energie für den Strom liefert, so bildet für die Logik ein Widerspruch die Spannung, um weiter zu denken.

Weiterdenken heisst aber auch immer, offen zu sein für ganz neue Aussagen. Auch darin unterscheidet sich Logodynamik von klassischer Logik. Letztere definiert zuerst ihre «Welt», das heisst alle Elemente, die später, bzw. überhaupt verwendet werden dürfen. Das System muss geschlossen sein. Die klassische Logik verlangt eine klare Grenzziehung um die Welt eines Aussagensystems, und zwar bevor Schlüsse gezogen (gedacht) werden kann. Unser Denken ist aber keinesfalls geschlossen. Wir können immer neue Objekte einbeziehen, neue Differenzierungen für bekannte Objekte austesten, neue Gründe finden, Gründe neu bewerten usw. Mit anderen Worten: Wir lernen. Deshalb muss ein Logiksystem, das sich der Art, wie Menschen denken annähert, prinzipiell offen sein.

In einem klassischen logischen System gibt es keine Zeit. Alles was gilt, gilt immer. In einem logodynamischen System ist das prinzipiell anders. Was heute als wahr angesehen wird, kann morgen als Irrtum erkannt werden. Ohne diese Möglichkeit gibt es kein Lernen. Das logodynamische System erkennt die Zeit als notwendiges und internes Element an. Das greift ganz tief in den logischen Mechanismus ein, quasi in den «Grundschalter» der Logik, nämlich in das IF-THEN. Das IF-THEN der dynamischen Logik hat nämlich prinzipiell (immer) einen Zeitbezug: Das IF ist stets vor dem THEN.

Ein statisches System könnte die Zeit höchstens als Objekt seiner Betrachtung erkennen, quasi als eine seiner Variablen, nicht aber als etwas, was mit seinem eigenen Funktionieren zu tun hat.

Somit unterscheidet sich ein logodynamisches von einem logostatischen System durch folgende drei Eigenschaften:

  1. Non-Monotonie: Widersprüche im System sind erlaubt.
  2. Offenheit: Jederzeit können neue Elemente im System auftauchen.
  3. Systeminterne Zeit: Zwischen IF und THEN vergeht Zeit.

Non-Monotonic Reasoning (NMR)

Begriffsmoleküle und NMR

Im Beitrag Zwei Arten von Codierung 1 habe ich die Aufgabe beschrieben, Computer die beeindruckende Vielfalt der medizinischen Diagnosen «verstehen» zu lassen. Dazu war es  nötig, die unterschiedlichen Diagnoseformulierungen beim Lesen durch den Computer in eine einheitliche Form zu überführen, welche alle semantischen Details in leicht abrufbarer Form repräsentiert.

Mit den Begriffsmolekülen ist uns das erfolgreich gelungen. Dabei halfen uns zwei Eigenschaften der Methode der Begriffsmoleküle, nämlich a) die konsequent komposite Repräsentation der Semantik, sowie b) ein Reasoner auf nicht-monotoner Basis. Die Verwendung eines nicht-monotonen Reasoners war damals überhaupt nicht im Trend. Die meisten Forschungsgruppen im Bereich der medizinischen Computerlinguistik waren gerade dabei, von der First-Order-Logic (FOL) auf Description Logic (DL) umzusteigen und glaubten, dass komplexe Semantiken am besten mit Hilfe von DL durch einen Computer interpretiert werden. In der Praxis allerdings zeigte sich, dass wir als kleine private Forschungsfirma ohne staatliche Unterstützung die erfolgreicheren waren. Wir setzten auf eine nicht-monotone Methode, während die anerkannte Lehrmeinung mit FOL und DL auf eine monotone Methode setzte.

Was ist monotone Logik?

Monotonie bedeutet in der Logik, dass durch Schlüsse gewonnene Aussagen ihren Wahrheitsgehalt nicht ändern, auch wenn neue Aussagen dazu kommen, die ihnen widersprechen. Was also im System als wahr erkannt wurde, bleibt wahr, was als falsch erkannt wurde, bleibt falsch. Nicht-Monotonie bedeutet umgekehrt, dass durch das System gezogene Schlüsse auch wieder in Frage gestellt werden können.

Was ist das Problem bei der Nicht-Monotonie?

Man muss sich im Klaren sein, dass Beweise nur in einem monotonen System möglich sind. In einem nicht-monotonen weiss man nie, ob nicht irgendwoher ein Argument kommt, das zu ganz anderen Schlüssen führt. Da Beweise z.B. in der Mathematik essentiell sind, ist es einleuchtend, dass die mathematische Logik ganz klar auf Monotonie setzt. 

Natürlich geht es bei der Computerlinguistik nicht um Beweise, sondern um korrekte Zuordnungen von Wörtern zu Begriffen. Der Vorteil, Beweise führen zu können, so wichtig er für die Mathematik ist, spielt für unsere Aufgabe keine Rolle.

Was ist das Problem bei der Monotonie?

Ein System, das seine Aussagen nicht verändern kann, ist nicht in der Lage, wirklich zu lernen. So funktioniert z.B. das menschliche Hirn mit Sicherheit nicht-monoton.

Ein monotones System muss auch geschlossen sein. In der Praxis sind wissenschaftliche Ontologien natürlich nicht geschlossen, sondern wachsen mit dem Erkenntnisfortschritt. Das gleiche Fortschreiten zeigt sich bei der Entwicklung eines Interpretationsprogramms. Auch hier gibt es eine kontinuierliche Verbesserung und Erweiterung, was monotone Systeme vor Probleme stellt.

Monotone Systeme können zudem mit Ausnahmen nicht so einfach umgehen. Jede Regel hat bekanntlich Ausnahmen und ein nicht-monotones System kann damit wesentlich gezielter und einfacher umgehen.

Nicht-Monotonie in der Praxis

Wenn man regelbasierte Systeme vergleicht, sind m.E. für unsere Aufgaben nicht-monotone den monotonen eindeutig vorzuziehen. Zwar ist die Nicht-Monotonie kein leichtes Pflaster und weist einige Fallen und Knacknüsse auf, doch die einfache Modellierbarkeit auch von detailreichen und komplexen Gebieten spricht für das nicht-monotone Reasoning.